论文部分内容阅读
词义歧义是指一词多义,即一个词在不同的上下文中有不同的意思。词义消歧就是根据上下文的语境,确定文本中每个词的确切意思。在自然语言处理领域中,词义消歧是一个必不可少的环节,在机器翻译、信息检索、句子分析、语音识别等多方面都有十分重要的作用。词义消歧是计算语言学和自然语言处理领域中一个重要的研究课题,也是该领域的热点研究问题之一。从上世纪50年代以来的研究过程中,出现了多种词义消歧方法:基于人工智能的方法、基于辞典的方法、基于语料库的方法。近年来,随着语料库的兴起,基于语料库的词义消歧技术占主导地位。人们通过对语料库进行有指导或无指导的学习,得到一个模型,然后利用该模型处理新的文本。这种方法存在一定的缺点:有指导学习依赖于人工标注的语料,代价高而且存在数据稀疏问题;无指导学习往往由于原始信息不足,学习模型的准确度不高。这大大影响歧义消解的效果。语义是自然语言的灵魂,是自然语言中最灵活的部分,也是词义歧义的根源。本文试图从语义的角度解决词义歧义问题。首先根据词义消歧的需求对比现有各种知识源,选择《知网》作为词义消歧的知识源。然后分析《知网》的知识,提出了基于搭配信息的词义消歧方法和基于语义相关度的词义消歧方法。最后实现了一个多策略的文本词义标注系统。跟一般的词义消歧系统不同,本系统采用基于《知网》中搭配实例和语义相关信息的多策略结合的综合消歧方式。主要工作可以概括为以下几个方面:
(1)深入研究现有的各种词义消歧方法,了解各种方法的设计思想,分析其优缺点。并根据知识源在词义消歧中的作用。分析比较现有的词义消歧知识源,根据词义消歧任务和知识需求,选择《知网》作为系统的消歧知识源。了解《知网》的整体组织结构和核心内容,并着重研究其中的义原分类体系、概念描述和角色框架等同词义消歧工作密切相关的部分,并将它应用到词义消歧中,为词义消歧提供了有力的支持。
(2)提出一种基于搭配信息的词义消歧方法。即通过将多义词所在上下文与实例库中已经标注好义项的实例进行对比,来推断该多义词的义项。在解决数据稀疏问题时引入了词语的语义相似度计算方法,通过计算目标词的搭配词的词义相似度,来判断目标词的词义相似性。这一方法能有效的扩展原有搭配实例的消歧能力。
(3)提出一种基于语义相关计算进行词义消歧的方法,利用《知网》中的三种语义相关表示信息:义原同现关系、属性一宿主关系和角色关系。义原同现反映了不同概念中拥有多少相同的属性;属性—宿主关系和角色关系描述了概念间的修饰关系,其中属性—宿主关系更偏重于名词和其他词语的关系,而角色关系偏重于动词和其他词语的关系。通过它们可以计算词语之间的语义关系紧密程度,其计算结果可用于词义消歧。
(4)确定上下文中有效词的选择策略。研究上下文在自然语言理解中的作用,分析现有选择有效词语的方法,并比较它们各自的优缺点。在此基础上,提出利用依存树来计算目标词语与上下文各词语关系的紧密程度,把计算结果作为上下文有效词语选取的依据。最后把该方法结合到词义消歧算法中。
(5)提出一种多策略消歧模型。词义消歧的方法有很多,但每个方法都不是完美的,它们各有优缺点。但把这些算法有效的融合起来可以提高词义消歧的准确度。因此,本文把类别歧义消歧、基于搭配实例的消歧和基于语义相关消歧结合起来,提出了一种多策略词义消歧模型,并且实现了一个词义消歧原型系统。最后通过实验验证本模型是行之有效的。