论文部分内容阅读
句法分析是自然语言处理的一个关键技术,它对于语义分析、机器翻译、信息检索和自动文摘等有着极其重要的意义。所谓句法分析就是指对句子中词语的结构和语法功能进行分析,其目的主要是确定句子的结构和各成份间的关系。建立基于句法树库的统计模型是句法分析的重要研究方向,句法树库的标注质量直接影响模型的质量。目前的许多汉语句法分析自动标注算法的准确率不够高,需人工修正句法树库,并对修正结果进行一致性检验。我们采用的一致性检验方法是通过多个标注者对人工标注过的文本进行反复交叉校验,尽量减少人工标注的疏漏,然后扫描整个树库,检查出不一致的标注,即发现树库中同样或类似的语言环境下标注不一致的地方。本文在为阿里巴巴公司建设汉语句法树库的基础上,通过对20 000句语料库完全句法树库的加工,探索不一致现象产生的原因及应对策略,主要工作如下:(1)根据汉语语料库所面向的应用需求,制定出相应的句法树加工规范,完备的加工规范有利于保证标注结果的一致性。树库的标注规范主要有以下两部分:标注方式和标记集。标注方式介绍使用什么形式组织句子中词与词之间的关系。标记集是描述汉语句法的功能特征和结构关系的符号集合。标注者参照标注规范中的示例对自动标注过的树库进行人工修正。(2)分析完全句法分析不一致现象产生的原因及应对方案。原因之一是规范本身不够完善,我们分析讨论人工修正句法树库的过程中遇到的问题,不断对加工规范补充修正;原因二是由于人工修正的操作有疏漏,需要对人工修正结果进行一致性检验。(3)提出基于分层的检查方法和自动消解策略。树库中的不一致现象分为三个层次,即分词、词性标注以及句法分析不一致。这三个层次是互相影响的,本文首先利用规则的方法,顺序读取树库,排查分词不一致现象。然后通过聚类的方法检查词性标注不一致现象。(4)分别从单层句法分析标注和多层句法分析结构优先顺序进行句法分析不一致检验。针对单层结构或功能理解不同造成的不一致的消解,主要考虑通过规则的方法修正。本文主要使用基于转换的错误驱动的标注方法。对于多层句法分析结构优先顺序引起的不一致,需要从结构树中结构优先顺序方面考虑,建立语言环境支持向量模型,根据上下文信息确定出一种最合适的句法结构。实验结果表明,分词和词性标记的不一致对句法分析结果的不一致的影响是十分显著的。经过切分和词性标注一致性检验后,句法分析不一致现象大量减少。查找和修正句法分析层面的不一致现象是一致性检验的难点,本文利用规则和统计方法,通过人工和自动机器相结合的策略,可以有效检验此类不一致现象。采用本文的方法对阿里巴巴汉语句法树库进行一致性校验,结果表明一致性检验的准确率为78.2%,召回率为90.1%,本文给出的方法确实能够使树库标注的准确率提高约3%。