【摘 要】
:
“互联网+”的大力发展使得全球数据生产量大幅上涨,其中非结构化数据占到了数据总量的80%,成为了全球数据的主要构成部分。非结构化数据处理一直是自然语言处理领域研究的重点和难点。知识图谱的出现为大数据处理与应用提供了一套完整可行的解决方案,知识图谱构建中的信息抽取与融合作为基础任务受到了广泛的关注。本文面向非结构化数据,围绕知识图谱中的信息抽取与信息融合任务开展了一系列的研究。在信息抽取技术研究中提
论文部分内容阅读
“互联网+”的大力发展使得全球数据生产量大幅上涨,其中非结构化数据占到了数据总量的80%,成为了全球数据的主要构成部分。非结构化数据处理一直是自然语言处理领域研究的重点和难点。知识图谱的出现为大数据处理与应用提供了一套完整可行的解决方案,知识图谱构建中的信息抽取与融合作为基础任务受到了广泛的关注。本文面向非结构化数据,围绕知识图谱中的信息抽取与信息融合任务开展了一系列的研究。在信息抽取技术研究中提出了结合词性注意力机制的实体信息抽取模型——PALC(POStag-Attention-LSTM-CRF),利用词性特征提高了信息抽取的准确性。为探索信息抽取与融合任务的关联性,继而提出了实体信息抽取与融合的PALC-DCA(POStag-Attention-LSTM-CRF-Dynamic Context Augmentation)联合学习模型,在PALC-DCA模型中加入反馈模块使得两个任务相互依赖,紧密结合,同时提高了任务的各项指标。本文的主要研究工作如下:(1)为了使实体信息抽取模型更好地学习单词的语义表达,本文提出了结合词性注意力机制的PALC模型。PALC模型利用词性标注工具Stanford Parser对所有非结构化数据进行词性标注,并采用了循环神经网络(Recurrent Neural Networks,RNN)学习句中单词的词性特征。RNN网络进行词性特征学习,为信息抽取模型提供了更加丰富的特征。并且词性特征可以表征单词在句中所属的类别和属性,在一定程度上辅助模型学习单词的语义表达,获得更为准确的语义特征,从而提高信息抽取的准确性。(2)针对信息抽取模型中的特征融合问题,本文提出了利用注意力机制与多层双向长短期记忆(Long-Short Term Memory,LSTM)网络的特征融合方式。首先利用LSTM网络获得单词的语义表达,再通过注意力机制获得句中不同词性与语义表达间的关系,进一步获得表达词性特征影响力的权重矩阵。权重矩阵与不同词性特征相乘相加再与其它特征拼接获得单词的向量表达,通过LSTM网络再次学习单词的语义特征,得到单词更为准确的语义表达。实验表明,该方法在CONLL03数据集上的准确率达到了90.65%,召回率达到了91.06%,F1分数达到了90.84%。(3)在信息抽取与信息融合联合学习研究中,本文提出了实体信息抽取与融合的PALC-DCA联合学习模型。PALC-DCA联合学习模型对信息抽取与信息融合数据集进行了统一化处理。通过对数据集联合使用方法的研究,建立了编码查询机制,提供了共享数据集方案,使得两个数据集可以在同一框架下进行使用。数据集共享方法为信息抽取与信息融合联合学习框架的实现提供了数据基础。(4)为了进一步将信息抽取与信息融合进行结合,本文提出了在联合学习模型中加入反馈模块。反馈模块通过卷积神经网络(Convolutional Neural Networks,CNN)学习第三方知识库中候选实体的描述信息,并且利用了实体信息融合模型中的局部分数,将描述信息与局部分数相乘。然后通过前馈网络最终得到信息抽取中实体类别标签对应的概率分布。将反馈模块中获取的概率分布与信息抽取模型的概率分布进行加权相加,最终利用实体信息抽取模型中的条件随机场(Conditional Random Field,CRF)层获得实体类别标签结果。实验表明,反馈模块的加入使得信息抽取的准确性提升,使得信息抽取在CONLL03数据集的准确率达到90.93%,召回率达到91.12%,F1分数达到91.02%。而联合学习使得信息融合在AIDA_CONLL数据集的准确率达到了94.24%,召回率达到了94.14%,F1分数达到了94.18%。
其他文献
本论文以热等离子体纳米材料合成及固体有害废弃物(如医疗垃圾)处理为研究背景,采用数值模拟和实验研究的方法,对直流电弧热等离子体发生器(反应器)内的传热与流动特性进行了二维数值模拟研究和初步的实验研究,得到了一些新的研究结果。本文采用二维数值模拟和实验测量手段研究了有反向载气注入条件下的热等离子体反应器内的传热与流动特性。数值模拟结果表明,等离子体发生器的输入功率、工作气体流量、反向载气流量及温度、
超快电子衍射(uED)利用超短电子束团探测物质的超快结构变化过程,在物理、化学、生命科学、材料科学等领域内诸多基础问题的研究中有重要作用。在传统的基于直流高压加速技术的keV uED中,较低的电子动能及由此引起的较强的空间电荷效应限制了可研究样品的范围和时间分辨能力。近年来提出的基于光阴极微波电子枪的MeV UED能够克服以上限制从而显著提高uED性能。本论文围绕MeV uED中诸多物理和技术上的
随着世界范围内物联网技术在生活中的广泛应用,智能设备在智慧城市、自动驾驶和工业互联网等场景中发挥着重要作用。由于智能设备产生的数据量呈指数增长,具有低时延、高存储和复杂计算需求的任务越来越多,从而造成智能网络设备与云计算中心之间的通信效率低下,且通信成本非常高昂。边缘计算(Edge Computing,EC)技术的出现旨在将云计算功能扩展到靠近用户终端的网络边缘,为用户带来近距离的计算能力和存储能
随着无线技术与物联网技术的进步,智能汽车快速发展,也带来了车载应用需求的大幅度增长。一些新兴的、具有计算密集和延迟敏感特征的车联网业务的出现,对车联网(Internet of Vehicle,IoV)的计算与任务调度提出了新的挑战。车辆边缘计算(Vehicular edge computing,VEC)将是一个有效的解决方案,通过将云服务下沉至移动网络边缘,既满足车辆计算资源的扩展需求,也能够在任
近年来,5G、云计算、物联网(Internet of Things,Io T)迅猛发展,软硬件紧耦合的传统网络设备在扩展性和灵活性上先天不足,已无法满足新时代下复杂多样的业务。而网络功能虚拟化(Network Function Virtualization,NFV)能将网络功能与专用硬件分离,让其以应用软件的形式运行在通用计算设备上,这样不仅缩减了运维成本还能灵活快速地提供服务。但随着NFV的深入
原子碰撞过程是一个古老而又年轻的,基础又有着广泛应用的一个研究方向,在可控核聚变,武器物理,天体物理中都有着广泛的应用。长久以来,由于实验条件的限制,实验研究常常限定于基态的原子。冷原子技术的诞生使得产生一个稳定的激发态的原子靶,乃至里德堡态的原子靶成为可能。而超冷等离子体技术的诞生使得实验研究等离子体环境中的原子过程成为了可能。针对我们小组正在进行的超冷等离子体环境中的原子碰撞实验,本论文从理论
重构核质点法(Reproducing Kernel Particle Method,简称 RKPM)是一种有广泛发展前景的无网格方法,具有优良特性。它可以避免大变形分析中由网格畸变引起的计算困难,避免移动不连续问题中耗时的网格重构。由于采用光滑连续的核函数,得到的解及其各阶导数都是连续的,具有较高的精度。此外,它的前处理过程更为简单,在很大程度上减少了人工工作量。针对 RKPM 是一种伽辽金型的无
随着电子信息产业的发展,人们的生活已经越来越离不开电子设备和互联网。各种各样的APP为了收集用户反馈,纷纷设置了评论业务。这些评论文本中包含了大量有价值的信息,利用这些信息,商家一方面可以更加了解用户的爱好,为用户做出推荐,另一方面可以更加了解自身的不足和缺点,对自身的服务进行改进。但是,面对海量的评论信息,商家或平台往往没有足够的人力去阅读它们,因此,基于深度学习和机器学习的自然语言处理技术就派
油水混合液的快速、高效分离是海洋油气开采和输送中亟待解决的技术问题。设计小型、快速、高效的复合式油水分离器是目前油水分离技术研究的一个方向。螺旋管油水分离器是一种体积小、效率高的分离设备,管内两相流动和分离过程的研究对于分离器的设计有重要意义。本文利用 FLUENT 软件,采用不可压湍流 Navier-Stokes 方程和两相流动的 Euler 模型,对螺旋管内油水两相流动和分离过程进行了数值研究
在现代通信体系下人们需要更高的无线信号传输速率和更优的信号质量。传统的雷达探测系统大多采用均匀阵结构,其较低的角度分辨率和较小的阵列孔径,日益无法满足当下无线信号传输技术的发展需要。稀布阵雷达相对于均匀满阵雷达,在相同数量阵列单元情况下拥有更大的阵列孔径、更高的探测精度和更灵活的阵列设计方式,但是当前稀布阵的研究还只停留在平面相控阵层面,对于频控阵和其他几何形式阵列的稀布技术研究还非常欠缺。此外在