论文部分内容阅读
实体消歧旨在解决文本中普遍存在的名称歧义问题,是大数据知识工程的核心研究内容,在语义搜索、问答系统、异构知识融合等领域都有着十分广泛的应用[1]。传统的实体消歧研究主要关注于新闻、论坛、博客等网页内容,着重解决开放领域及应用环境下实体命名指称的不规范性和歧义性。近年来,随着认知科学等交叉学科科技文献的爆炸式增长,由于术语在不同领域的一词多义性,面向特定领域科技文献的实体消歧需求凸显。例如术语“depression”,该术语在生物医学领域指“抑郁症”,在心理学领域表示“一种消极的情绪”。不进行实体消歧,辨析“depression”特定术语在当前语境下的真正含义,将严重影响基于文献的知识学习、文献推荐等应用的准确性。然而,不同于面向新闻、论坛等网页内容的开放领域实体消歧,面向领域文献的命名指称具有术语更新快、书写形式多样、缩写词比例高等不利条件,传统实体消歧方法难以有效发挥作用。 针对这一问题,本文以认知科学为领域背景,从候选实体生成和实体消歧两方面对面向交叉学科的领域文献命名实体消歧问题进行研究。本文的主要工作有: (1)针对科技文献中术语具有书写形式多样、缩写比例高、构词嵌套等特点,提出一种多策略融合的候选实体生成方法。并与其他方法对比,获得了召回率较高且平均候选数目较小的候选实体集合。 (2)提出了一种基于概率模型的单实体消歧算法。用知识库中实体描述信息构造实体模型,采用语言模型中的平滑技术解决语料分布不均衡问题。该算法在建模时描述粒度细,包含实体相关的信息量大,在有充足的语料模型的情况下能够得到96.9%的消歧准确率。 (3)提出了基于图模型的全局实体消歧方法,引入了图理论中Degree、Closeness、Betweeness三种评分方法,并从是否考虑权重和是否考虑双向链接对图评分方法进行改进,通过实验验证本文提出的改进算法的有效性。 (4)提出两阶段实体消歧方法,融合基于概率模型的方法和基于图模型的方法,在消歧过程融入文本领域知识和实体领域知识,使实体消歧结果在整体性能上得到提高。 本文在理论方面改进了候选实体生成的方法,并且提出了一种结合领域知识的实体消歧算法,得到了很好的实验效果。在实践方面,实体消歧有助于领域知识的挖掘和领域知识库的构建。