论文部分内容阅读
一直以来,语义分析都是自然语言处理领域的一大难题。在如今的大数据时代,基于机器学习的词性标注、句法分析研究已经日益完善,机器翻译、人工智能等领域的发展越发依赖深入的句子语义分析。AMR (Abstract Meaning Representation)作为一种句子语义表示方法,其语义表示结果是一个单根有向无环图;而且AMR表示的是句中的概念以及概念间的关系,在从词语到概念以及关系的抽象过程中,可以根据句子的语义适当新增概念或删减句中的词语。因此,较之其他语义表示方法,AMR可以更完整地表示句子中丰富的语义信息。但是AMR目前主要是针对英文展开的研究,其体系并不适用于中文句子的语义表示。基于以上原因,本文决定将中文句子的语义表示作为研究目标,在详细梳理了 AMR的发展历程、体系及AMR的自动分析等内容后,以AMR的体系为基础,建立一套适用于中文句子的抽象语义表示方法(ChineseAMR, CAMR)。本研究建立的CAMR标注体系主要包括两部分:对AMR的继承与发展以及CAMR标注规范。该标注规范不仅制定了一套详细的标记集,而且对中文中常见的和特殊的语言现象作了细致的定义。其中,标记集分为概念和关系两部分。概念部分不仅仅对表示回指、语气、各种疑问代词、数量类型、专有名词等的处理做了规定,还增加了表复句的概念。关系部分共包括5种核心语义关系,42种非核心语义关系。规范中的每一条细则都给出了具体的中文示例。在制定的标注规范的基础上,本文展开了第二项工作——语料标注。整个语料标注过程分为两个阶段。第一阶段选取了中文版《小王子》进行标注。在语料的标注过程中,根据语料的实际分析需求,反复讨论修改标记集,不断完善CAMR的标注规范;第二阶段在仔细比较了多种语料的基础上,选取了中文宾州树库(CTB)语料作为标注对象。最终共标注得到《小王子》语料1562句,CTB语料5000句。在语料标注完成后,本文又针对CAMR的一系列特点进行了相应的统计分析。首先,针对CAMR的分析结果是单根有向无环图的这个特点对语料进行了统计,发现语料中有39.96%的句子是图结构,这有力地证明了用图结构来表示中文句子的语义是必要的。接着,针对CAMR可以新增概念和删减词语的这一特点进行了统计,发现语料中有95.2%的句子在用CAMR表示时,进行了新增概念的操作,有96.94%的句子进行了删减词语的操作。这说明了在表示句子语义时,新增概念和删减词语这种抽象是必要的,也进一步证明了 CAMR继承AMR,使用抽象的方法来表示句子语义是合理且必要的。最后,鉴于谓词一直都是句法语义研究的重点,而在CAMR中,谓词义项通过不同的论元结构来区分,所以本研究统计了语料中谓词义项的论元使用情况,得到了一个关于谓词义项的论元词典,该义项词典可供其他语言学研究者使用。