论文部分内容阅读
句法分析一直是自然语言处理任务中的重要课题,它的主要目标是根据语言学知识制定的语法规则或者基于统计知识建立的模型,自动建立由基本句子单元之间的基本关系构成的一棵多层树,目前其主要研究面向两种句法树:短语结构树和依存句法树,两者均可以产出在各自语法和规则的条件下的句法结构。但是在这两种分析方法提出之后,并没有对原有的句子单元中的一些其他成分进行进一步处理,依然还是在原来的定义基础上进行研究,例如对句子功能成分等并没有进行足够的分析,而这些功能成分在很多自然语言处理任务中都有很大的应用,例如在机器翻译中,我们可以将功能成分信息加入到词对齐任务中,在依存句法分析中,可以在分析过程中用功能信息来进行约束。在这种需求的驱动下,本文提出了汉语层次功能成分树的研究。目前,面向汉语功能成分的研究并不是很多,而层次化的汉语功能成分研究更是比较少,在这种背景下,我们提出了层次化的汉语功能成分语料—汉语功能树库的建立方法,同时提出了在该语料上不同层级的分析方法。本文的具体研究内容及研究成果如下:(1)层次化汉语功能树建立的过程中,我们首先借鉴前人类似的工作,提出了一种基于规则从宾州树库语料中提取并建立多层汉语功能成分树的方法,接下来我们从该功能树上提取不同层级的数据,提取后得到的语料将会用在后续的分析任务中。(2)在层次化功能成分分析任务中,我们提出了一种分步的分析方法,分别从从句级别,基本功能层级和功能名词短语结构层级三个部分依次进行分析,并将不同层级的结果作为新的特征加入到其他层级的分析过程中,在从实验的结果上看,这种分析方法对各个单独阶段的模型都有一定的效果提升。从本项目中的研究中,我们发现层次化的汉语功能成分识别具有很好的研究前景,在本文中,我们提出了一种可行的分析方法来实现这一目标,从实验结果上看,该研究具有很好的研究价值。