面向企业图谱的实体链接技术的研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:qqllql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息爆炸的时代,网上蕴含着海量的有价值的企业信息,但是这些信息大多分散在不同的网站,这就导致这些数据缺乏层次性和逻辑性,不同网站的数据集之间很难实现数据的自动关联,所以对信息的智能化和规范化处理显得尤为重要。本文研究的实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。根据有监督实体链接算法的三个步骤:命名实体识别、候选实体的生成和候选实体消歧,设计了一个实体链接系统,并利用该系统成功构建了一个企业领域的知识图谱。论文的具体工作可以归纳如下:(1)选择维基百科中文版、百度百科和互动百科作为背景知识库来构建多源知识库,使用基于Att-BiLSTM-CRF中文命名实体识别模型来获得实体指称,提出了一种结合上下文匹配策略和知识库信息检索策略的实体指称扩展方法,最后生成了一个具备高召回率和高准确率的候选实体集合。(2)提出了两种融合神经网络和余弦相似度的候选实体排序算法,提出了空实体判定方法。设计不同场景对比实验,结果表明,选择融合CNN和余弦相似度的候选实体排序算法,并添加空实体判定方法得到的候选实体消歧算法效果最优。(3)结合上述候选实体生成算法和候选实体排序算法作为本文的实体链接算法,设计出一个应用于企业领域的实体链接系统,并将该系统应用到构建知识图谱的过程中,使用Neo4j成功构建企业领域的知识图谱。
其他文献
[目的]对乌鲁木齐市城市社区40~69岁人群开展肺癌筛查,评价筛查效果。[方法]对问卷评估的11 512名肺癌高危人群低剂量螺旋CT检查。[结果]共完成肺癌CT筛查3436人,依从性为20.
自由基反应在生命科学中扮演重要的角色。在正常情况下,人体内自由基的产生与清除处于平衡状态,从而确保人体健康。运动时,一系列的生化反应导致机体内清除自由基的能力不足