基于《知网》的多策略词义消歧算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:spendtime
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义歧义是指一词多义,即一个词在不同的上下文中有不同的意思。词义消歧就是根据上下文的语境,确定文本中每个词的确切意思。在自然语言处理领域中,词义消歧是一个必不可少的环节,在机器翻译、信息检索、句子分析、语音识别等多方面都有十分重要的作用。词义消歧是计算语言学和自然语言处理领域中一个重要的研究课题,也是该领域的热点研究问题之一。从上世纪50年代以来的研究过程中,出现了多种词义消歧方法:基于人工智能的方法、基于辞典的方法、基于语料库的方法。近年来,随着语料库的兴起,基于语料库的词义消歧技术占主导地位。人们通过对语料库进行有指导或无指导的学习,得到一个模型,然后利用该模型处理新的文本。这种方法存在一定的缺点:有指导学习依赖于人工标注的语料,代价高而且存在数据稀疏问题;无指导学习往往由于原始信息不足,学习模型的准确度不高。这大大影响歧义消解的效果。语义是自然语言的灵魂,是自然语言中最灵活的部分,也是词义歧义的根源。本文试图从语义的角度解决词义歧义问题。首先根据词义消歧的需求对比现有各种知识源,选择《知网》作为词义消歧的知识源。然后分析《知网》的知识,提出了基于搭配信息的词义消歧方法和基于语义相关度的词义消歧方法。最后实现了一个多策略的文本词义标注系统。跟一般的词义消歧系统不同,本系统采用基于《知网》中搭配实例和语义相关信息的多策略结合的综合消歧方式。主要工作可以概括为以下几个方面: (1)深入研究现有的各种词义消歧方法,了解各种方法的设计思想,分析其优缺点。并根据知识源在词义消歧中的作用。分析比较现有的词义消歧知识源,根据词义消歧任务和知识需求,选择《知网》作为系统的消歧知识源。了解《知网》的整体组织结构和核心内容,并着重研究其中的义原分类体系、概念描述和角色框架等同词义消歧工作密切相关的部分,并将它应用到词义消歧中,为词义消歧提供了有力的支持。 (2)提出一种基于搭配信息的词义消歧方法。即通过将多义词所在上下文与实例库中已经标注好义项的实例进行对比,来推断该多义词的义项。在解决数据稀疏问题时引入了词语的语义相似度计算方法,通过计算目标词的搭配词的词义相似度,来判断目标词的词义相似性。这一方法能有效的扩展原有搭配实例的消歧能力。 (3)提出一种基于语义相关计算进行词义消歧的方法,利用《知网》中的三种语义相关表示信息:义原同现关系、属性一宿主关系和角色关系。义原同现反映了不同概念中拥有多少相同的属性;属性—宿主关系和角色关系描述了概念间的修饰关系,其中属性—宿主关系更偏重于名词和其他词语的关系,而角色关系偏重于动词和其他词语的关系。通过它们可以计算词语之间的语义关系紧密程度,其计算结果可用于词义消歧。 (4)确定上下文中有效词的选择策略。研究上下文在自然语言理解中的作用,分析现有选择有效词语的方法,并比较它们各自的优缺点。在此基础上,提出利用依存树来计算目标词语与上下文各词语关系的紧密程度,把计算结果作为上下文有效词语选取的依据。最后把该方法结合到词义消歧算法中。 (5)提出一种多策略消歧模型。词义消歧的方法有很多,但每个方法都不是完美的,它们各有优缺点。但把这些算法有效的融合起来可以提高词义消歧的准确度。因此,本文把类别歧义消歧、基于搭配实例的消歧和基于语义相关消歧结合起来,提出了一种多策略词义消歧模型,并且实现了一个词义消歧原型系统。最后通过实验验证本模型是行之有效的。
其他文献
随着计算机和网络在日常工作中的广泛应用,工作流技术已成为协调企业业务过程、增强企业应变能力和竞争力的重要技术。作为工作流技术的软件载体,工作流管理系统WfMS(Workflow
掌握信息优势是取得现代战争胜利的重要因素之一。信息控制权将成为制空权、制海权、制陆地权的重要组成部分。电子沙盘三维地形可视化系统的实现,为各级作战指挥员提供了一个
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规
我国消防系统的档案多以文档形式为主,部分信息附以二维平面图来表现。本课题是研究和开发高层和大型建筑的计算机三维模型的快速生成系统,为建立消防档案提供三维的机制,促
在异构分布式环境中,具有依赖关系的任务调度问题属于NP完全问题。为了取得较好的调度方案,很多启发式调度算法被引入到了调度问题的研究当中。例如:列表调度算法、遗传算法、模
用计算机生成具有真实感的画面是计算机图形学的主要目的。其前提是构建虚拟场景的逼真几何表达。一种有效的解决途径是获取真实世界中物体的几何信息,然后基于这些信息进行建
数据挖掘的研究经过十几年的迅速发展,已经取得巨大成就,相关技术正在被各应用领域的专家所瞩目。目前,数据挖掘研究及其应用己经渗透到多个学科及领域中,并在人工智能与机器学习
移动数据库是为了适应移动计算环境下的数据存取需求而产生和发展起来的。采用数据复制和同步技术的复制移动数据库系统是移动数据库的一种重要模型,这种模型对移动设备在断连
当前世界的竞争,是各国之间综合国力的竞争。确切地说:是经济的竞争,科技的竞争,能源的竞争。进入二十一世纪,人类对能源的需求与日俱增:原油需求量日益膨胀,原油价格一路飚升。而目
计算机网络技术的快速发展推动着分布式计算的进步,促成了计算机应用体系从独立应用体系向网络应用体系的转变。然而,随着网络应用在各个领域的迅速扩展,分布式系统开发的复杂性