中文篇章级句间关系分析

被引量 : 0次 | 上传用户:chenweili73924
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章通过将实体、事件等信息按照一定的结构组织起来来表达一种语义。因此为了理解篇章的语义,我们不仅需要获取篇章中包含的信息,还需要理解篇章中信息的组织结构方式。而篇章级句间关系分析是在词汇分析、信息抽取的基础上分析篇章中句子之间的内在逻辑结构关系,希望以此来理解整个篇章的组成架构。篇章级句间关系分析对情感分析、文本连贯性等任务在篇章结构理解层面提供了有力支持。篇章级句间关系分析包括两部分内容:将篇章切分为基本语义单元以及识别语义单元之间的逻辑语义关系,即句间关系的识别。目前篇章级句间关系分析研究大都面向的是英文语料;而且集中在识别人工标注的语义单元之间的句间关系。本文在发布中文篇章级句间关系语料库(HIT-CDTB)的基础上探索了面向中文的篇章级句间关系自动分析,完成了包括篇章基本语义单元的自动切分、中文连词识别以及语义单元之间的句间关系识别等三部分内容。针对基本语义单元的切分,本文首先分析了使用逗号进行分割的优缺点以及能够达到的准确率,同时本文实现了基于短语结构分析的语义单元自动切分方法,实验表明该方法的准确率明显优于使用逗号能够达到的准确率。针对中文连词识别,本文首先构建了中文连词词典,并在连词词典基础上实现了基于SVM分类的中文连词识别方法。针对显式句间关系识别,本文分析了使用中文连词词典能够取得的效果并在此基础上开发了基于规则和SVM分类的识别方法。针对隐式句间关系识别,我们实现了基于SVM分类的识别模型,并在词向量的基础上完成了对基本语义单元的量化表示,将语义单元之间的逻辑语义关系识别转化为向量操作,有效的提升了隐式句间关系的识别效果。最后,为了方便学术界进行中文篇章级句间关系研究,本文将标注的中文篇章级句间关系语料放在网上供大家免费下载(哈工大中文篇章关系语料库,HIT-CDTB,http://ir.hit.edu.cn/hit-cdtb),并开发了一个句间关系分析展示网站。
其他文献
目的分析泛昔洛韦与阿昔洛韦治疗带状疱疹的临床效果及安全性。方法选取2016年2月~2018年2月本院收治的100例带状疱疹患者,按照随机数字表达法将其分为观察组与参考组,各50例
登革热是由登革病毒(DENV)引起的一种急性传染病,是全球热带及亚热带地区主要的公共卫生问题,对人类健康和公共卫生安全构成了重要威胁。登革热需要借助实验室诊断才能确诊,通过RT
如今,我国农村土地流转市场在农民的自发组织下已经形成起来了,但是实际操作过程中却存在着许多问题,规定农村土地流转的具有可操作性的法律规范却相对滞后,《民法通则》和《土
<正>我国三星级饭店现在面临着良好的市场机遇,必须通过产业变革来赢得新一轮发展壮大的空间。20世纪80年代:起步阶段1978年我国饭店仅有137家,其中绝大多数是国宾馆和招待所
《劳动合同法》在提高了我国法律对劳动者的保护标准的同时也存在着将一部分强势劳动者纳入适用范围从而导致实质不公的问题。本文的四个部分以劳动法律应如何对待公司高管人
马克思恩格斯政党思想是马克思主义党的学说的理论基石,也是把马克思主义党的学说推向前进的重要理论来源。新时期随着党的新的伟大工程的推进,追本溯源,加强马克思恩格斯政党思
电子商务是20世纪信息化、网络化的产物,它随着网络的繁荣而得到迅速的发展。电子商务突破了传统单一的市场销售渠道带给生产商、零售商以及个人更低的协调成本和交易成本。
<正> 一、美式英语的历史渊源 研究过去可以更好地理解现在,而深刻地理解现在又是正确估计未来的前提。本文试图追溯一下美式英语的来龙去脉。18世纪70年代,一场历时8年的独
伺服系统迅速发展对伺服性能和功能提出了更高的要求,而伺服测试是评价伺服系统性能和功能好坏的唯一方法。由此伺服系统测试装备作为伺服系统的附属产品受到工程人员的广泛关
回顾世界各国的发展历程,城镇化的快速发展及城乡收入差距加剧所带来的问题一直困扰着大多数国家,我国也不例外。一方面,在我国经济实现了蓬勃发展的同时,人均收入得到稳步增长,居