【摘 要】
:
信息抽取是自然语言处理(NLP)领域研究热点之一,而实体关系抽取作为其基础任务尤为重要。实体关系抽取的目的是从大量的非结构化数据中剥离出具有结构化的实体然后对实体之间的语义关系进行判断,通常使用三元组的方式进行表示,此技术为之后搭建知识图谱、信息检索、自动问答等技术提供基础。目前实体关系抽取的研究方向大多是以单一的词向量表示或结合不同特征进行处理,在用多个方法处理后的结果,在不同关系类型的分类中,
论文部分内容阅读
信息抽取是自然语言处理(NLP)领域研究热点之一,而实体关系抽取作为其基础任务尤为重要。实体关系抽取的目的是从大量的非结构化数据中剥离出具有结构化的实体然后对实体之间的语义关系进行判断,通常使用三元组的方式进行表示,此技术为之后搭建知识图谱、信息检索、自动问答等技术提供基础。目前实体关系抽取的研究方向大多是以单一的词向量表示或结合不同特征进行处理,在用多个方法处理后的结果,在不同关系类型的分类中,他们对关系的判断有着各自的优势和劣势。所以本文据此提出了采用多个数据处理方式对实验数据进行处理,独立输入到下一层,统计其优劣势,再更合理的分配权重是本文的核心创新点。关系抽取的研究也是逐步发展的,分别经历了知识工程、传统机器学习、深度学习这三个阶段。目前而言深度学习方法已经成为当今的主流,其原因是相对于那些需要专业领域人才设计需要特征的传统实体关系抽取,深度学习方法通过自动学习,模型统计规律,有效的避免了像传统方法需要消耗大量人力和时间,同时也减少了错误的传播,所以本文在深度学习的基础上来进行研究。而在深度学习模型中也发现通过把卷积神经网络和双向LSTM模型进行合理的组合也可以很好地提高实验的整体性能。为了突出实体在句子中的重要性并更好地挖掘词语间的关系,在神经网络模型中添加了注意力机制。针对以上问题,本实验提出了相应的解决办法,主要的创新点由以下三点构成;(1)本实验提出了一种多模型融合策略,即将句法结构分析、最短依存路径与知网处理结果分别独立地输入到神经网络层中,结合各方法在相应关系分类中的敏感度,优化设置不同模型面向不同关系识别的权重分布。(2)在原有的Bi-LSTM模型基础上,增加卷积神经网路(CNN),从而可以更好地捕获句子局部关键信息,提高实验的性能。为了保持数据的完整性,每次输入都会与原始数据相结合,目的是保持数据信息的完整性,以更好地状态输入到Bi-LSTM层中去,这样两个模型的优势都很好的得到表现。(3)为了更好的学习词语之间的依赖关系,捕捉句子的内部语义信息,在原有的模型中添加了注意力机制,在注意力层中为了改善关系抽取在长复杂句中的分类效果,把输入到注意力层的数据中所有的隐藏状态提取出来,为了证明这个方法的有效性同时也做了对比实验,最后通过结果证明提取所有的隐藏状态比提取单一的隐藏状态效果更佳。实验结果对比,在融合多元信息神经网络模型后,F值为79.38%,照比初始实验有了显著提升。之后通过添加注意力机制模型,F值提高了2.62%,通过实验数据证明实验方法可行。
其他文献
伴随着绿色化学概念的提出,研究者的目光逐渐集中在无毒、无污染、对环境友好的物质上,离子液体以其所具备的优良性质得到了广泛关注,并与超临界CO2及双水相体系并称21世纪的
半导体TiO2作为一种重要的半导体光催化材料,由于其光催化活性高、化学稳定、安全无毒以及成本低廉等优点,在污染物的降解、太阳能电池和光化学合成等领域得到广泛的关注。但
由于近几年出口大米转基因污染事件的发生,急需开发针对转基因“汕优63”大米简单、经济、可靠的定量检测方法。新兴的电化学DNA生物传感技术在最近几年发展迅速。它致力于建
酯酶(Esterases,EC 3.1.1.1)是一类可以催化酯键水解和形成的酶,现在已经成为一种重要的生物催化剂应用于制药、食品和生物降解等领域。我们课题组在前期的工作中,筛选出一株
如今的社会里,计算机在各行各业中逐渐替代并超越人类的能力,而让计算机拥有和人类一样甚至更高的智能是我们许多人奋斗一生的目标。人的智能由理性的逻辑思维和感性的情感思
本文主要用有限差分法求解一类带有Neumann边值条件的线性双曲型方程,文章共分为三部分.第一部分是绪论,主要介绍问题的实际意义、研究现状以及本文所要研究的内容和结果.第
本文研究在高维空间和异构环境中的带有自由边界和Bedding-DeAngelis响应函数的捕食模型.首先,我们给出两物种的蔓延-灭亡二分法,即两物种要么成功地蔓延到整个空间并在新的
视觉诱发电位(Visual evoked potential,VEP)是指被试当受到视觉刺激时在大脑皮层的枕叶区产生的相应脑电活动。目前对VEP的研究主要针对两个方面的应用:一是VEP的提取在临床
本论文主要以《桥梁——实用汉语中级教程》(第三版)的生词为研究对象,从教材中的生词量、生词等级、生词重现率和生词英文释义等方面进行研究,针对研究结果总结出此套教材在生词编写上的不足,并给出一定的修改意见。通过考察发现,本套教材从生词总量来看,没有达到《高等学校外国留学生汉语教学大纲(长期进修)》中要求的中等阶段学生所掌握的生词量,从单课中看,单课生词量过多,落差数过大;在生词等级上初等阶段、中等阶
目的:(1)了解肾移植受者疾病不确定感现状,分析受者疾病不确定感及其影响因素;(2)在Mishel疾病不确定感理论框架的基础上,结合文献分析,构建肾移植受者疾病不确定感与应对方式的理论模型;(3)验证构建的理论模型,分析肾移植受者疾病不确定感与应对方式的关系。方法:采用方便抽样法,于2019年4月至2019年7月选取在西安市交通大学第一附属医院移植随访门诊就诊的肾移植受者为研究对象。经研究对象同意