面向认知科学的文献实体消歧算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:claverchou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体消歧旨在解决文本中普遍存在的名称歧义问题,是大数据知识工程的核心研究内容,在语义搜索、问答系统、异构知识融合等领域都有着十分广泛的应用[1]。传统的实体消歧研究主要关注于新闻、论坛、博客等网页内容,着重解决开放领域及应用环境下实体命名指称的不规范性和歧义性。近年来,随着认知科学等交叉学科科技文献的爆炸式增长,由于术语在不同领域的一词多义性,面向特定领域科技文献的实体消歧需求凸显。例如术语“depression”,该术语在生物医学领域指“抑郁症”,在心理学领域表示“一种消极的情绪”。不进行实体消歧,辨析“depression”特定术语在当前语境下的真正含义,将严重影响基于文献的知识学习、文献推荐等应用的准确性。然而,不同于面向新闻、论坛等网页内容的开放领域实体消歧,面向领域文献的命名指称具有术语更新快、书写形式多样、缩写词比例高等不利条件,传统实体消歧方法难以有效发挥作用。  针对这一问题,本文以认知科学为领域背景,从候选实体生成和实体消歧两方面对面向交叉学科的领域文献命名实体消歧问题进行研究。本文的主要工作有:  (1)针对科技文献中术语具有书写形式多样、缩写比例高、构词嵌套等特点,提出一种多策略融合的候选实体生成方法。并与其他方法对比,获得了召回率较高且平均候选数目较小的候选实体集合。  (2)提出了一种基于概率模型的单实体消歧算法。用知识库中实体描述信息构造实体模型,采用语言模型中的平滑技术解决语料分布不均衡问题。该算法在建模时描述粒度细,包含实体相关的信息量大,在有充足的语料模型的情况下能够得到96.9%的消歧准确率。  (3)提出了基于图模型的全局实体消歧方法,引入了图理论中Degree、Closeness、Betweeness三种评分方法,并从是否考虑权重和是否考虑双向链接对图评分方法进行改进,通过实验验证本文提出的改进算法的有效性。  (4)提出两阶段实体消歧方法,融合基于概率模型的方法和基于图模型的方法,在消歧过程融入文本领域知识和实体领域知识,使实体消歧结果在整体性能上得到提高。  本文在理论方面改进了候选实体生成的方法,并且提出了一种结合领域知识的实体消歧算法,得到了很好的实验效果。在实践方面,实体消歧有助于领域知识的挖掘和领域知识库的构建。
其他文献
在信息化战争迅猛发展环境下,复杂的电磁环境使频谱拥堵日益严重,削弱了电子防御对威胁信号的判断能力,传统电子战采用的盲抗干扰方式存在较大局限性。近年,人们将认知无线电(CR)
该论文主要研究多跳无线网几个基本问题,包括网络拓扑控制、MAC层协议的公平性、扩频码的分配算法和网络级抗干扰.文中提供了两种拓扑控制算法,第一种拓扑控制算法是基于定位
如今,互联网技术是最热门的信息技术之一,伴随着互联网的进一步发展,网络中的数字作品已经渗透我们生活的方方面面,这些信息科学技术给我们生活带来的极大的便利。但是,人们
情感识别作为情感计算领域的核心研究内容,在人机交互、医学辅助诊断及多媒体智能推荐等应用领域得到了越来越多的关注,具有重要的研究与应用价值。与面部表情、语音等外部信号
该论文旨在探索自然复杂进化系统的机制,建立基于遗传算法的人工生命的进化模型.在基于遗传算法的人工遗传算法的人工生命进化模型的结构框架下,分别依据Lamarck直接遗传方式
该论文的主要内容分四个部分:第一部分通过多载波调制技术的一种重要形式--离散多音调制的讨论,从整体上对多载波调制系统及其特点做了介绍.第二部分研究了多速率系统和小波
近年来小波变换理论和应用飞速发展,以很多领域小波都有出色的应用.小波有"数学显微镜"的美誉,这是因为小波变换能够"由粗及精"的分析信号中各种频率分量和各个时段的信号.目
该文在课题组已有的研究成果的基础上,提出一种新的频谱编码传输方法,即基于快速离散沃尔什变换的频谱编码传输系统.该文讨论了系统的传输波形的设计,及其输出信号的带宽.同
学位
该论文在系统地讨论了一般纹理分析方法的特点和应用,简要地介绍了该文所涉及的小波分析和马尔可夫随机场模型的基本理论后,提出了一种小波分析和马尔可夫随机场模型的纹理分