论文部分内容阅读
关系抽取作为信息抽取领域的核心任务,从海量的非结构化文本数据中抽取出实体间关系,形成结构化的三元组信息,为知识图谱构建、推荐及搜索系统、自动问答系统和文本摘要等应用提供关键技术支撑。远程监督学习方法利用知识库对齐文本可以便捷地构建出大规模的开放领域语料集,但大量噪音数据的产生会导致关系抽取模型难以收敛,抽取效果较差。另一方面,现有的深度学习模型自动学习特征的能力有所欠缺,导致抽取的句子特征信息不完整,进而影响关系抽取模型的准确性。因此,研究并设计能够准确挖掘句子特征且过滤噪声数据的关系抽取方法是信息抽取领域的重要挑战。本文就如何提高分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)抽取句子特征的准确性以及如何缓解噪声数据的影响两方面展开了研究。本文的主要贡献包括:1.为了准确且完整地提取句子的特征信息,本文提出基于内外部语义特征的远程监督关系抽取方法。外部语义特征指利用Word Net词典查询实体的上位词集合作为背景特征。内部语义特征指基于语料集计算单词IDF值并在归一化后加入到词向量中作为单词重要性特征,突出非实体词在构成句子向量中的贡献。实验结果表明,在标准数据集纽约时报(New York Times,NYT)和Freebase(NYT-FB)上,使用PCNN提取句子特征向量时加入外部语义特征比仅使用PCNN在P@100、P@200、P@300指标上提高了2.3%~5.9%,并且在精确度/召回率(Precision/Recall,P-R)曲线上有更好的表现;使用PCNN结合内部语义特征比仅使用PCNN在平均P@N指标上提升了3.3%,且在PR曲线上同样有更好的表现;在PCNN上加入内外部语义特征后在平均P@N值上达到了74.3%,相较于前面两种方法都有所提高,且获得了表现最好的P-R曲线。2.为了过滤数据集内的大量噪声数据,本文利用多示例学习方法,把拥有相同实体对的所有句子作为一个包来处理,输出包的特征向量代替句子特征向量。本文改进选择性注意力机制(Selective Attention,SATT)中的权重分配方式,提出优先注意力机制(Preferential Attention,PATT),使得所有句子中置信度低于平均值的句子分配到的权重为零,间接地提高置信度较高的句子权重,从而降低了噪声句子的影响,提升包的特征向量的准确性。实验结果表明,同样在PCNN结合内外语义特征并使用多示例学习的情况下,PATT相较于SATT在P@100、P@200、P@300指标上提高了2%~5%,在平均P@N值上提升了3.6%,并且P-R曲线更优。另外,将PATT与内外部语义特征方法融合,设计多组实验对比内部语义特征和外部语义特征对关系抽取的贡献。3.为了体现出关系抽取模型实用价值,本文将基于内外部语义特征及优先注意力机制的实体抽取模型应用于金融大数据知识图谱构造的项目中。本模型作为该项目的系统中核心模块之一,将已进行实体识别的句子输入到系统中后提取实体和关系的三元组用于构建知识图谱,最后设计前端页面展现知识图谱可视化的形式。