论文部分内容阅读
词义消歧(Word Sense Disambiguation)是指采用一定的策略或算法,在给定的上下文中自动确定歧义词的正确词义的任务,是自然语言处理领域中词汇级别的最大难题。词义消歧是自然语言处理技术中一项基础性的技术,对于文本挖掘、自动文摘、机器翻译、以及信息检索等众多自然语言处理技术的性能提高有着重要影响。因此如何提高词义消歧的性能也成为人们的迫切需求。本文针对词义消歧中存在的问题和难点,对词义消歧中的若干关键技术进行了深入的研究,具体的研究内容主要包括:1.为了有效的利用消歧知识源,尤其是多种异构的消歧知识源中蕴含的知识。本文提出了一种基于词语链和词义可靠性的词义消歧方法。该方法基于词语链的思想,构建出描述整个文档词义内聚性的语义关联图,然后基于该语义关联图实现对歧义词的消歧。语义关联图可以有效的集成多种消歧知识源,提高了消歧知识源的利用率。此外该方法提出了词义可靠性的概念,用以度量词义的可靠性,从而给予语义关联图中节点以相应的权重,可以有效的提高稠密的语义关联图的消歧精度。2.词义消歧系统严重的依赖于知识。然而消歧知识的难以获取和匮乏,给词义消歧研究的发展造成了极大的阻碍。针对这个问题,本文将一个海量的在线常识知识库ConceptNet引入到消歧知识源,有效的缓解了消歧知识源匮乏的问题。由于ConceptNet中的概念存在歧义问题,不能直接作为消歧知识源。因此本文还提出一个将ConceptNet中歧义概念自动消歧的方法。并将消歧后的ConceptNet中的常识知识和WordNet相结合,作为消歧知识源。通过在公共测试集上的测试,说明使用消歧后的ConceptNet扩展的消歧知识源,可以有效的提升基于知识的词义消歧系统的性能。3.在词义消歧研究中,词义字典是能够进行词义消歧的前提条件,选择的词义字典是否合适直接决定词义消歧的质量。然而在特定领域中的词义消歧,例如社会标注系统中的标签消歧,由专家构建的预定义词义字典无法有效覆盖歧义词的词义。在这种情况下,需要构建符合待消歧数据中词义分布的词义字典。针对这个问题,本文提出了一种基于非负矩阵分解的无指导的词义消歧方法。该方法可以自动构建出匹配对应社会标注系统的词义字典,该词义字典可以有效的覆盖社会标注系统中的标签,并且不存在预定义词义词典中大量冗余的以及缺失的词义,从而有效解决社会标注系统中标签歧义问题。此外,对于从社会标注系统中自动构建出的词义字典,目前没有合适的评估其质量的方法。本文提出一种自动评估方法,可以客观、有效地评估自动生成的词义字典质量,避免了成本高昂的人工评估方法。