基于多源信息的实体链接算法研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jy02132679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接(Entity Linking)是知识图谱领域一项关键的基础技术,其任务是要将非结构化文本中提及的实体和知识库中存储的实体进行一一映射,以帮助计算机更精准地理解输入的自然语言。实体链接在知识库扩展、信息检索、智能问答、内容推荐等场景下有着广泛的应用,是知识图谱领域的热点研究问题之一。本文通过对国内外基于图结构和实体嵌入的实体链接相关研究进行调研,针对实体链接研究中生成的候选实体集噪声过大,候选实体一致性衡量不精确,相似候选实体消歧能力不足等问题,提出了两种基于图结构的联合实体链接算法。具体地,本文的主要工作包括:1、提出了基于LeaderRank的联合实体链接算法—LRCEL,该算法主要包括实体识别模块、候选实体集生成模块、实体关联图构造模块、候选实体排序模块这四个主要模块。首先考虑输入文本中潜在的语义信息和本地知识库中蕴含的语义信息,生成规模小而精确的候选实体集,随后通过候选实体集构造包含候选实体强弱语义关系的实体关联图,最后利用关联图中包含的多源信息结合LeaderRank进行候选实体排序,选择一组候选实体作为输入中各实体提及的最终链接对象,完成各实体提及与知识库实体的链接。实傼结果证明相较于经典的联合实体链接方法Babelfy,LRCEL算法在候选实体生成,实体主题一致性度量等多个方面都有较大优势,链接整体表现上也更加优秀,平均F1值提升了11%。2、在LRCEL算法的基础上进一步进行改进,提出了基于实体嵌入的联合实体链接算法—EECEL。EECEL算法通过随机游走相关算法和词嵌入模型生成知识库中每个实体对应的实体嵌入,然后直接利用实体嵌入计算候选实体间的一致性,进一步改善实体相关图中的实体关联性表达。该算法还利用实体嵌入生成输入文本的主题向量,利用主题向量优化算法的候选实体集生成和候选实体排序模块。在两个知识库的三组数据集上,EECEL算法都比LRCEL算法的链接表现更好,平均F1值提升了2%,充分证明了基于实体嵌入能帮助实体链接算法取得更好的效果。LRCEL和EECEL算法后续将重点从上下文选择方法、本地知识库稠密化、实体提及识别方法这三个方面进行研究,提升现阶段两种实体链接算法的链接效果。
其他文献
随着IPv6网络技术的快速发展,网络应用愈发广泛,学生的学习和娱乐离不开IPv6校园网的支持,也使得校园网出口数据流量越来越大。为了了解校园网内学生的上网习惯是否健康,并保
黄金具有良好的避险能力,因此很多投资者投资并持有黄金资产,来降低投资风险实现资产保值。作为一类金融资产,黄金当然会受到各种因素的影响而产生价格波动,并且波动会在市场间传递。因此,把握中国黄金市场与其它黄金市场之间的关系,分析其溢出效应特征,无论从投资者风险管理的角度来看,还是对监管者维护市场稳定而言都是非常必要的。本文对上海与伦敦、纽约、东京三个黄金市场之间的多尺度溢出效应和套期保值问题进行探讨。
2017年中央一号文件指出将会大力支持具有相关基础的田园综合体建设,未来农村工作的重点是提升农业生产效率,提升农民收入,提升农产品附加值。以生态农业理念为发展先行理念,结合生态可持续发展理念,发展融合当地特有生态资源、旅游观光资源、农业观光资源等多要素一体的田园综合体。随着我国国民经济发展的不断深入,农村发展问题、农民增收问题、农业供给侧结构问题不断被重视,传统的休闲农业发展模式与我国国民经济发展
自1978年改革开放以来,经济迅猛发展,在世界范围内取得了瞩目的成就。城镇化进程也随着经济的发展在逐步推进,城镇数量不断增多,城镇功能更加完善,城镇人口呈现出暴增的趋势,城乡收入差距扩大问题也随之引起全社会广泛关注。中国城乡之间劳动力的自由流动能够促进资源的优化配置,收敛城乡之间收入差距,但是在中国城乡割据的二元经济体制下,劳动力的自由流动受到限制,导致农村经济的发展长期滞后于城镇经济的发展,城乡
近年来,随着互联网技术、信息通信技术不断取得突破,互联网与金融快速融合,互联网金融在我国得到快速发展。随着国家鼓励互联网金融政策的推进,我国的P2P网贷行业迅猛发展。
近年来,具有力致荧光变色(MFC)和摩擦发光(ML)活性的有机发光材料作为可对外界刺激产生响应的智能材料日益受到人们的广泛关注,它们已逐渐应用于压力探测、生物传感器、信息记录
事物之间总是有千丝万缕的联系,这些联系就构成了不同的网络。网络在现实世界中极其普遍地存在,因此研究网络的性质将提升人们对于网络演化的理解,进而帮助人们更好地建模现实世界,从而提升各种现实任务的性能。事物在现实中有不同的属性,导致其在与其他事物的交互中有不同的功能,于是在网络中有不同的角色。在同一网络或不同网络中执行不同功能的节点往往具有不同的角色,而在同一网络或不同网络中执行相似功能的节点往往具有
我国影子银行自2009年以来,规模经过十几年的快速膨胀已成为我国市场经济发展过程中不可忽视的重要因素。影子银行一方面能够借助信用创造功能将大量的流动性注入市场,使得货币总供给产生预期外的波动,货币当局的宏观调控更难把握;另一方面,影子银行缺乏监管导致其相关业务能对资金实现信用、期限与流动性错配,加高资金杠杠,滋生累积金融风险,威胁金融稳定。一行三会自2017年3月份开始,便紧锣密鼓地出台颁布各项针
本文旨在分析援助计划对老挝减贫的影响。老挝计划要在2020年脱贫,从而实现千年发展目标(MDG)引起各界关注。老挝目前已经获得了相当数量的外部援助以填补其发展差距,基于以上事实,本文在储蓄-投资缺口模型理论框架的指引下,选取1990年-2016年数据,应用ARDL模型分析援助计划对减贫的影响,如赠款援助,其他援助包括贷款援助、人道主义援助、外国直接投资、政府支出、国内投资和国际汇款等变量。本文实证
在我国经济结构转型期,企业资产有形性逐渐降低,此时通过区域金融发展缓解企业融资约束是加快新兴产业发展的重要前提。本文基于沪深两市上市公司样本数据,首先对上市公司资产有形性与现金持有量的关系进行研究。然后,对区域金融发展因素进行主成分分析,拓展研究区域金融发展对现金持有量与资产有形性的关系的调节作用。最后,通过稳健性检验和异质性分析探究本文研究结论的可靠性和差异性。研究发现,我国上市公司资产有形性有