论文部分内容阅读
随着信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言理解中的重点和难点之一。它一方面综合了多种自然语言处理技术,如词性标注、名词短语识别、句法分析等;另一方面,在一些自然语言处理的应用技术中,如文本摘要、问题回答等,它又是一个重要的组成部分。 在中文的各种文本中,大量使用了人称代词,形成很多的指代关系,人称代词的指代消解便成为中文文本指代消解工作的一个主要内容。本文主要研究伊索寓言中文语料中人称代词的指代消解。主要包括以下几个部分内容: 1.在深入分析伊索寓言语料中人称代词指代特点的基础上,根据代词和其先行语所遵循的一般规律,定义了七个与指代相关的特征,并选用六种机器学习的算法进行消解实验,实验结果证明机器学习的方法能较好地解决人称代词的指代消解问题。 2.在实验的基础上本文设计了一个基于语料库的,机器学习方法与优选策略相结合的指代消解系统。该系统充分考虑了与指代相关的若干特征,利用决策树算法构建筛选器,并结合错误驱动的规则提取方法,有效地降低了噪音,大量减少了进入优选策略待消解对的数量。而优选策略可以将通过筛选器不能很好处理的指代现象利用统计学的方法消解出来。 3.详细描述了中文文本人称代词消解系统的设计与实现,并且对系统进行了全面的测试评估,对比各类人称代词的消解情况,分析不同特征对系统性能的影响大小,讨论错误原因。从该算法目前所取得的一些实验结果看来,这是行之有效的。 本文对人称代词的指代消解进行了初步的研究,从中我们认识到了进一步的研究内容,为今后的研究奠定了基础。