论文部分内容阅读
自然语言处理属于人工智能的一个领域分支,主要研究人类如何有效地运用人类语言与计算机进行通信,是一门融合了语言学、计算机科学与数学于一体的科技。自然语言处理包括浅层分析与深层分析。浅层分析主要分析句子的局部信息,其中包括分词、词性标注、命名体识别等。深层分析主要在全局上对句子进行分析,其中包括句法分析和语义分析。句法分析在自然语言处理中处于十分关键的位置。 目前广泛用于句法分析的语法体系有短语结构语法与依存结构语法。其中依存语法直接划分句中的词间关系,易于理解与标注、形式简洁,逐渐受到自然语言处理研究人员的重视,已广泛应用到机器翻译、自动问答系统、信息检索等领域。 但目前句法分析的准确度仍不能达到实用的程度。本文在最大生成树模型(MstParser)的基础上,提出了Sibling-Child三阶依存解析模型,并对原有的最大生成树依存分析系统进行了改进,降低了系统运行时间,并提高了中文依存分析的准确率。本文的研究工作主要包括如下几个方面: (1)本文系统总结了近年来基于最大生成树的判别式投影(projective)依存句法的几种解析模型:一阶模型、Sibling二阶模型、Grand-Child二阶模型、Higher-Order模型、三阶Grand-Sibling模型、三阶Tri-Sibling模型等。 (2)本文提出了新的三阶依存(Sibling-Child)句法解析模型,并对原有的最大生成树依存分析系统进行了改进,有效地降低了系统运行时间和提高了中文依存分析的准确率。 (3)本文在传统特征如词、词性(POS)、依存距离、依存方向基础上引入了词聚类类标特征。进一步地提高了中文依存句法分析的准确率。 (4)本文设计并实现了带界面的Sibling-Child三阶中文依存分析系统。