论文部分内容阅读
句法分析是自然语言处理领域中的一个核心研究任务,它主要分析句子的组成成分以及各个成分之间的相互关系。句法分析研究一个句子是由哪些短语构成的,而这些短语又是由哪些词组构成的。句法分析任务是自然语言处理领域中一个基础任务,很多其他的研究任务都要基于句法分析的分析结果,这些研究任务包括:语义角色标注(Semantic Role Labeling),统计机器翻译(Statistical Machine Translation),信息抽取(Information Extraction)等。目前主流的句法分析模型都能够在公开的数据集上达到较好的性能,在公开的英文数据集上Bekeley句法分析器可以达到91%的性能(F1值)。然而这些主流的句法分析器虽然能够达到较好的性能,但是它们的速度确实非常慢的,这些分析速度较慢的句法分析模型显然不能够满足实用化的需求。为此,本文研究并构建了一个基于组块的句法分析模型,这种句法分析模型的主要优势在于其快速分析能力,此外,本文还对该模型进行了改进。本文的主要内容如下:(1)研究并构建了基于组块的句法分析系统。基于组块的句法分析模型是一种将组块分析技术应用到句法分析任务中的句法分析模型。基于组块的句法分析模型将句法分析任务分为两个子模块,分别是:基层组块分析和上层组块分析。基层组块分析主要是对词和词性这一层的组块分析,而上层组块分析在基层组块分析的基础之上是一个不断进行组块分析和组块合并的循环迭代过程,直到合并到最后的根节点。(2)研究了改进词性标注的方法。词性标注也是自然语言处理中一个基础的任务,它的主要目标是自动的赋予每个词一个正确的词性。本文构建的基于组块的分析模型的输入数据首先要进行词性标注,因此,提高句法分析模型的一个直接方法就是提高词性标注的性能。本文首先研究了句法特征对词性标注的改进作用,然后又使用转换方法将其他人工标注的数据转换为新的训练数据,并用所有训练数据来重新训练标注模型,从而提高词性标注的性能。实验表明,两种方法能够显著的改进句法分析的性能。(3)研究了改进基于组块的句法分析模型的方法。主要从三个方面来改进句法分析模型:第一种是通过使用更丰富的特征来改进分析模型;第二种是使用半指导的方法来改进分析模型;第三种是使用n-best句法分析技术来搜索最优的句法分析树。最终的实验表明,后面两种方法能够显著的改进句法分析的性能。本文的贡献度主要表现在:研究并构建了基于组块的句法分析模型,并首次研究了该模型在中文上的分析性能;提出了两种改进词性标注的方法,并验证了这两种改进方法对句法分析性能的影响;提出了三种改进基于组块的句法分析模型的方法,并验证了这几种方法对基于组块的句法分析模型性能的改进作用。最终的实验表明,本文提出的大部分改进方法能够有效的改进句法分析模型的性能,这为推进基于组块的句法分析模型的实用化提供了基础。