论文部分内容阅读
模糊限制语具有不确定性的含义,常用于缓和说话人的语气或减轻说话人对所陈述命题应付的责任。由模糊限制语引导的信息是不确定的信息,在信息抽取时,应将事实信息与模糊限制信息区分开来。模糊限制信息检测对事实信息抽取具有重要意义。英文模糊限制信息检测研究已取得了较大进展,而中文模糊限制信息检测研究处于起步阶段,并且尚未发现公开发表的语料库。本文研究构建了一个用于中文模糊限制信息检测研究的语料库,并进行了跨领域中文模糊限制语识别研究。针对中文模糊限制信息语料库的缺乏问题,本文在生物医学和维基百科两个领域,设计构建了一个具有24,000句规模的中文模糊限制信息语料库。研究了中文模糊限制语的分类,制定了模糊限制语标注规则。根据中文模糊限制语的类型及词性,制定了基于短语结构的模糊限制信息范围标注规则。实验统计分析了模糊限制语及其范围标注的一致性。基于本文制定的详细标注规则,模糊限制语及其范围标注均获得了较高的一致率。同时分析了模糊限制语的类型和领域之间的关系,结果表明模糊限制语具有领域特性。中文模糊限制语广泛用于生物医学文献、维基百科等各个领域。中文模糊限制语具有领域特性,为了在各个领域获得较理想的检测结果,需要在每个领域都要有足够的标注语料,而语料的标注费时费力。针对目标领域标注数据不足的问题,本文先后提出了跨领域中文模糊限制语识别方法。基于实例迁移和特征迁移的互补优势,提出了一种基于实例迁移和特征迁移相结合的跨领域中文模糊限制语识别方法。在生物医学和维基百科两个领域上的实验表明,结合方法取得了比单独基于实例迁移方法与单独基于特征迁移方法都好的识别性能。词向量能够挖掘词语间的潜在语义关系,提出一种基于词向量与迁移学习相结合的跨领域中文模糊限制语识别方法。实验结果表明,将模糊限制语候选词的词向量作为特征分别引入实例迁移和特征迁移学习,有效地提高了跨领域中文模糊限制语识别性能。进一步融合实例迁移和特征迁移的识别结果,最终,跨领域中文模糊限制语识别结果达到了72.39%的F值。本文构建的语料库为中文模糊限制信息检测研究提供了强大的资源支持。提出的跨领域中文模糊限制语识别方法,可以将中文模糊限制语识别推广应用于更广泛的领域,对中文事实信息抽取具有重要意义。