基于AMR的中文句子语义标注及统计分析

来源 :南京师范大学 | 被引量 : 4次 | 上传用户:cxddqqqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,语义分析都是自然语言处理领域的一大难题。在如今的大数据时代,基于机器学习的词性标注、句法分析研究已经日益完善,机器翻译、人工智能等领域的发展越发依赖深入的句子语义分析。AMR (Abstract Meaning Representation)作为一种句子语义表示方法,其语义表示结果是一个单根有向无环图;而且AMR表示的是句中的概念以及概念间的关系,在从词语到概念以及关系的抽象过程中,可以根据句子的语义适当新增概念或删减句中的词语。因此,较之其他语义表示方法,AMR可以更完整地表示句子中丰富的语义信息。但是AMR目前主要是针对英文展开的研究,其体系并不适用于中文句子的语义表示。基于以上原因,本文决定将中文句子的语义表示作为研究目标,在详细梳理了 AMR的发展历程、体系及AMR的自动分析等内容后,以AMR的体系为基础,建立一套适用于中文句子的抽象语义表示方法(ChineseAMR, CAMR)。本研究建立的CAMR标注体系主要包括两部分:对AMR的继承与发展以及CAMR标注规范。该标注规范不仅制定了一套详细的标记集,而且对中文中常见的和特殊的语言现象作了细致的定义。其中,标记集分为概念和关系两部分。概念部分不仅仅对表示回指、语气、各种疑问代词、数量类型、专有名词等的处理做了规定,还增加了表复句的概念。关系部分共包括5种核心语义关系,42种非核心语义关系。规范中的每一条细则都给出了具体的中文示例。在制定的标注规范的基础上,本文展开了第二项工作——语料标注。整个语料标注过程分为两个阶段。第一阶段选取了中文版《小王子》进行标注。在语料的标注过程中,根据语料的实际分析需求,反复讨论修改标记集,不断完善CAMR的标注规范;第二阶段在仔细比较了多种语料的基础上,选取了中文宾州树库(CTB)语料作为标注对象。最终共标注得到《小王子》语料1562句,CTB语料5000句。在语料标注完成后,本文又针对CAMR的一系列特点进行了相应的统计分析。首先,针对CAMR的分析结果是单根有向无环图的这个特点对语料进行了统计,发现语料中有39.96%的句子是图结构,这有力地证明了用图结构来表示中文句子的语义是必要的。接着,针对CAMR可以新增概念和删减词语的这一特点进行了统计,发现语料中有95.2%的句子在用CAMR表示时,进行了新增概念的操作,有96.94%的句子进行了删减词语的操作。这说明了在表示句子语义时,新增概念和删减词语这种抽象是必要的,也进一步证明了 CAMR继承AMR,使用抽象的方法来表示句子语义是合理且必要的。最后,鉴于谓词一直都是句法语义研究的重点,而在CAMR中,谓词义项通过不同的论元结构来区分,所以本研究统计了语料中谓词义项的论元使用情况,得到了一个关于谓词义项的论元词典,该义项词典可供其他语言学研究者使用。
其他文献
纳西东巴文作为目前世界上为数不多的活着的象形文字,其文字形态原始,书写质朴古拙,保留了较多早期文字的性质特征,被学者们誉为文字研究的“活化石”。学者们对其的研究涉猎
先天性心脏病严重危害着儿童的生命与健康,作为一种多因素遗传疾病,其病因和发病机制尚未完全阐明。目前认为主要是由于胚胎期遗传因素和环境因素共同作用,导致心血管发育异
使用ArcGIS制作的影像地图,表达效果不够完美。而Adobe Illustrator不支持空间坐标和空间分析等,数据的处理过程比较复杂。将ArcGIS与Adobe Illustrator相结合,能够更高效地
医患关系自古以来对于医患双方——不管是医生的成功诊疗,还是患者能否得到有效医治都是非常重要,然而近些年,国内的医患矛盾逐年加剧,不仅患者对诊治过程不满意,加重了其身
晚清以降,自从外国传教士凭借着不平等条约深入内地传教开始,中国人民的反洋教斗争就相伴而生,其高潮就是义和团运动。在义和团时期,张之洞出于对国运的忧虑,反对义和团运动,
[目的]总结朱丹溪及其弟子的郁证理论。[方法]研究有关文献,列举朱丹溪及其弟子对郁证病因病机、治法的相关论述,分析朱丹溪及其弟子对郁证的阐述与发挥。[结果]朱丹溪以《内
近年来,随着国家对学前教育事业重视程度的日益提升,加强幼儿园教师队伍建设被提上重要的议事日程,学前教育专业建设开始成为各级各类高等学校关注的焦点。课程是学校教育的
本论文以被评选为2010年度日本十大流行语之一的「无缘社会」 一词作为切入点,从社会语言学及社会学的角度来考察「无缘社会」这一流行语产生的过程及其所代表的无缘社会现象
魏晋南北朝时期,汉语发生了重大变化。述补式和处置式这两种语法形式在这一时期也产生了新的变化,既沿用了上古汉语中原有的句式,又受外来语的影响,吸收了外来语中的句式特点
新世纪反映社会新面貌的词语层出不穷,凭借着网络优势,人们几乎每日都会接触到新词语。除了各类新词语词典及时收录新词新语外,规范性的语文词典如《现代汉语词典》每次修订