论文部分内容阅读
篇章通过将实体、事件等信息按照一定的结构组织起来来表达一种语义。因此为了理解篇章的语义,我们不仅需要获取篇章中包含的信息,还需要理解篇章中信息的组织结构方式。而篇章级句间关系分析是在词汇分析、信息抽取的基础上分析篇章中句子之间的内在逻辑结构关系,希望以此来理解整个篇章的组成架构。篇章级句间关系分析对情感分析、文本连贯性等任务在篇章结构理解层面提供了有力支持。篇章级句间关系分析包括两部分内容:将篇章切分为基本语义单元以及识别语义单元之间的逻辑语义关系,即句间关系的识别。目前篇章级句间关系分析研究大都面向的是英文语料;而且集中在识别人工标注的语义单元之间的句间关系。本文在发布中文篇章级句间关系语料库(HIT-CDTB)的基础上探索了面向中文的篇章级句间关系自动分析,完成了包括篇章基本语义单元的自动切分、中文连词识别以及语义单元之间的句间关系识别等三部分内容。针对基本语义单元的切分,本文首先分析了使用逗号进行分割的优缺点以及能够达到的准确率,同时本文实现了基于短语结构分析的语义单元自动切分方法,实验表明该方法的准确率明显优于使用逗号能够达到的准确率。针对中文连词识别,本文首先构建了中文连词词典,并在连词词典基础上实现了基于SVM分类的中文连词识别方法。针对显式句间关系识别,本文分析了使用中文连词词典能够取得的效果并在此基础上开发了基于规则和SVM分类的识别方法。针对隐式句间关系识别,我们实现了基于SVM分类的识别模型,并在词向量的基础上完成了对基本语义单元的量化表示,将语义单元之间的逻辑语义关系识别转化为向量操作,有效的提升了隐式句间关系的识别效果。最后,为了方便学术界进行中文篇章级句间关系研究,本文将标注的中文篇章级句间关系语料放在网上供大家免费下载(哈工大中文篇章关系语料库,HIT-CDTB,http://ir.hit.edu.cn/hit-cdtb),并开发了一个句间关系分析展示网站。