基于内外部语义特征及优先注意力机制的远程监督实体关系抽取方法及应用研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:diaoyujiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取作为信息抽取领域的核心任务,从海量的非结构化文本数据中抽取出实体间关系,形成结构化的三元组信息,为知识图谱构建、推荐及搜索系统、自动问答系统和文本摘要等应用提供关键技术支撑。远程监督学习方法利用知识库对齐文本可以便捷地构建出大规模的开放领域语料集,但大量噪音数据的产生会导致关系抽取模型难以收敛,抽取效果较差。另一方面,现有的深度学习模型自动学习特征的能力有所欠缺,导致抽取的句子特征信息不完整,进而影响关系抽取模型的准确性。因此,研究并设计能够准确挖掘句子特征且过滤噪声数据的关系抽取方法是信息抽取领域的重要挑战。本文就如何提高分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)抽取句子特征的准确性以及如何缓解噪声数据的影响两方面展开了研究。本文的主要贡献包括:1.为了准确且完整地提取句子的特征信息,本文提出基于内外部语义特征的远程监督关系抽取方法。外部语义特征指利用Word Net词典查询实体的上位词集合作为背景特征。内部语义特征指基于语料集计算单词IDF值并在归一化后加入到词向量中作为单词重要性特征,突出非实体词在构成句子向量中的贡献。实验结果表明,在标准数据集纽约时报(New York Times,NYT)和Freebase(NYT-FB)上,使用PCNN提取句子特征向量时加入外部语义特征比仅使用PCNN在P@100、P@200、P@300指标上提高了2.3%~5.9%,并且在精确度/召回率(Precision/Recall,P-R)曲线上有更好的表现;使用PCNN结合内部语义特征比仅使用PCNN在平均P@N指标上提升了3.3%,且在PR曲线上同样有更好的表现;在PCNN上加入内外部语义特征后在平均P@N值上达到了74.3%,相较于前面两种方法都有所提高,且获得了表现最好的P-R曲线。2.为了过滤数据集内的大量噪声数据,本文利用多示例学习方法,把拥有相同实体对的所有句子作为一个包来处理,输出包的特征向量代替句子特征向量。本文改进选择性注意力机制(Selective Attention,SATT)中的权重分配方式,提出优先注意力机制(Preferential Attention,PATT),使得所有句子中置信度低于平均值的句子分配到的权重为零,间接地提高置信度较高的句子权重,从而降低了噪声句子的影响,提升包的特征向量的准确性。实验结果表明,同样在PCNN结合内外语义特征并使用多示例学习的情况下,PATT相较于SATT在P@100、P@200、P@300指标上提高了2%~5%,在平均P@N值上提升了3.6%,并且P-R曲线更优。另外,将PATT与内外部语义特征方法融合,设计多组实验对比内部语义特征和外部语义特征对关系抽取的贡献。3.为了体现出关系抽取模型实用价值,本文将基于内外部语义特征及优先注意力机制的实体抽取模型应用于金融大数据知识图谱构造的项目中。本模型作为该项目的系统中核心模块之一,将已进行实体识别的句子输入到系统中后提取实体和关系的三元组用于构建知识图谱,最后设计前端页面展现知识图谱可视化的形式。
其他文献
数控机床是制造业的基础,提高工件的加工精度是制造业不懈的追求,而高精度的数控机床是实现该目标的必经途径。数控机床的几何误差是影响工件加工精度的重要因素,尤其对于高
矩阵补全是利用观测到的矩阵元素去估计未知元素,从而恢复整个矩阵。它被广泛应用于协同过滤,推荐系统等机器学习应用中。在这些机器学习应用中,通常用一个矩阵来存储数据。这些数据矩阵通常是低秩的,而且有一些缺失数据,如何通过观测到的数据,应用矩阵低秩的特性,来预测这些缺失数据从而恢复矩阵就是低秩矩阵补全的问题。推荐系统是矩阵补全的一个典型的应用,例如在MovieLens中,存有部分用户对一些电影的打分,矩
口腔白斑是指发生在口腔黏膜上的白色或灰白色的斑块状损害,口腔扁平苔藓是一种常见的慢性口腔黏膜皮肤性疾病,两种疾病均属于非传染性口腔斑纹类疾病。其中,口腔白斑属于癌
近几年,区块链技术越来越受各国政府和研究机构的关注和重视。智能合约作为区块链2.0的代表技术,以一段可编程的代码形式部署到区块链上,且一旦部署成功就无法修改。如果智能
对于移动机器人而言,传统的同时定位和地图构建技术(SLAM)已经提供了较好的定位和建图的基础。移动机器人可通过视觉里程计对自身的位姿进行估计,通过滤波以及非线性优化算法
在多核技术的发展过程中,如何优化任务调度问题,提升多核并行计算能力一直是人们关注的重点问题。在传统的任务调度问题研究中,诸如任务复制、任务聚簇、列表调度等传统方法,
近年来,随着计算机系统与网络已经深入到社会生产活动的方方面面,当今社会的信息化程度不断提高,在享受利用计算机系统与网络来交换信息所带来的巨大便利的同时,信息安全问题
RDF(Resource Description Framework)是由W3C(万维网联盟)提出的用于描述语义万维网资源的框架。随着链接开放数据(Linked open data)和DBpedia等项目的全面展开,开放的RDF
随着医学影像技术水平的提升,基于医学影像的计算机辅助检测算法在辅助医生对病变区域进行诊断方面做出不少贡献。肺部医学图像的分析检测常用于医疗健康服务领域辅助医生进
流感病毒有高死亡率、高发病率和易传染的特点,流感的爆发严重危害了人类健康,无数人因流感而失去生命。目前,接种疫苗是非常有效的预防流感发生与传播的方法。在流感疫苗制