论文部分内容阅读
近年来,依存句法分析越来越受到自然语言处理的研究人员的重视。相比于短语结构文法,依存文法具有表达简洁,可以直接面向语义,易于分析处理等优点,因而被广泛用于自然语言处理的各个研究和应用领域,如文本检索、自动文摘、自动问答系统、机器翻译等。作为当前依存句法分析的一类主要方法,基于转换的依存分析方法将依存句法分析作为一个状态转换的过程,通过执行一系列的动作,逐步建立起词与词之间的依赖关系,将输入句子(初始状态)转换至依存语法树(最终状态)。由于采用贪婪的搜索策略,相比较依存句法分析的另一类主要方法——基于图的方法,基于转换的依存句法分析尽管会牺牲少量的准确性,但一般有着更快的运行速度。本文首先简要介绍了依存文法的基本理论和前人提出的依存句法分析方法。然后在现有的一种基于转换的依存句法分析方法的基础上,依次提出了3种新的基于转换的依存句法分析方法:基于子树转换的方法,基于子树序列转换的方法,和两层的子树转换的方法。在前两种方法中,相邻的表示部分分析结果的依存树可以比较灵活地合并为一棵更大的依存树,而这两种方法的区别在于是用一连串分类器还是用一个序列标注器。在第三种方法中,我们尝试将依存分析分层处理,在第一层中建立每句分句内的依赖关系,在第二层中,利用前两种方法,合并分句的结果。基于转换的依赖分析器除了状态和动作的定义,关键就是使用分类器做动作预测,因而在介绍完转换模型之后,我们对所使用的分类器和特征选择策略加以介绍。最后我们通过实验证明本文提出的方法能够很好地完成中文依存句法分析的任务。在两个中文树库上,我们提出的方法都比原有的基于转换的依存分析方法有着显著的提高,尤其当在第二种方法中引入动作特征和在第三种方法中使用分层的策略,分析的准确率甚至超过基于图的方法。并且通过比较分类器,我们发现使用支持向量机能得到比使用最大熵模型更好的分析效果。