论文部分内容阅读
随着互联网的快速发展和信息量的急剧增加,如何快速、有效的获取信息越来越受到人们的关注。传统的自然语言处理方法已经逐渐不能人们的要求,如何使用智能化的手段对信息进行加工和处理已经成为一个十分重要的问题。对文本信息进行自动化处理的基础和关键是理解文本的语义,即使用形式化的语义结构表示文本的含义,并且这种语义结构应该是可以被计算机所理解和处理的。目前将文本转化为语义结构的方法主要有基于专家知识的方法和基于数据统计的方法两种,但由于自然语言文本和形式化的语义结构之间存在巨大的差距,因此难以实现良好的转换效果。为了避免直接从自然语言映射到语义结构十分困难的问题,研究人员提出了以“谓词-论元结构”为核心的浅层语义分析理论,又称语义角色标注。该理论着眼于词汇层面,主要目的是建立语句中各词汇或短语等句法成分之间的语义关系。浅层语义分析可以被看作是一种通用的语义抽取技术,并且可以作为深层语义分析的基础,因此得到了快速的发展,并被广泛应用于自然语言处理的各个相关领域中。本文在以上成果的基础上,对基于浅层语义分析的海量文本语义构建方法进行了研究,主要包括以下几方面工作:1.提出了一个基于海量文本的语义构建框架。该框架以“谓词-论元结构”为核心,通过语义角色归纳实现了对海量文本的语义角色标注,然后根据“谓词-论元结构”与语义结构之间的映射关系,实现了文本的深层语义构建。2.提出了一种基于多特征的语义角色归纳算法。该方法将语义角色归纳视为一个聚类问题,对于给定的谓词,首先从大规模文本中找到给定谓词的所有论元,然后根据论元的语法结构复杂程度将论元集合划分为简单论元和复杂论元两种类型,并针对不同类型论元,使用不同的特征进行对论元集合进行划分。然后使用一种经过改进的层次聚类算法对划分结果进行进一步合并,最终聚类所得的每一个簇代表谓词的一个语义角色。该方法不需要人工标注的数据,能够自动从大规模文本中得到各谓词的“谓词-论元结构”。3.提出了一种基于语义相似度的谓词-论元结构与本体的映射算法。本文使用本体作为文本语义的描述方式。面向语义构建的本体大多以事件为核心进行组织。本文提出的方法通过计算“谓词-论元结构”与本体中谓词相关事件的语义相似度,建立了“谓词-论元结构”到本体中事件的映射关系,这一映射关系将语言层面的内容与语义层面的内容联系在一起。对于文本来说,在经过句法分析和语义角色标注后,可以通过该映射关系转化为语义结构,形成一个完成的语义构建过程。4.提出了一种语义构建结果的自评价机制。针对不同的语义构建算法对不同文本适用能力不同的现象,本文提出了一种自评价机制。该机制从三个层面对整个语义构建过程中不同阶段的结果进行评价,给出了结果的可信度的度量办法。利用该可信度,可以从结果集中筛选出相对正确的部分。本文提出海量文本语义构建方法一方面利用海量文本的规模优势,实现了文本语义角色的无监督标注,克服了有监督的方法需要大量训练数据的问题,使得语义标注可以在不同领域和语言之间方便的扩展。另一方面,通过“谓词-论元结构”到本体映射关系的自动建立,实现了从浅层语义分析到深层语义分析的转换,形成了一个完整的文本语义构建过程。