基于深度学习的实体关系抽取技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:abintianshen3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和大数据时代的到来,大量信息以非结构化的电子文档形式展示,如何高效地结构化这些文本数据成为一个亟待解决的问题,信息抽取则在这一背景下应运而生。信息抽取研究旨在低成本地从复杂、冗余的文本中提取出高质量、结构化的可利用数据,极大地推动了自然语言处理研究的发展。关系抽取通过挖掘出实体间的关系类型信息,形成规则的实体关系三元组,从而将非结构化文本构建成结构化文本。其作为信息抽取的核心任务之一,在知识图谱、推荐检索、智能问答等人工智能领域中有重要意义和价值。近年来,越来越多的深度学习方法应用在实体关系抽取任务上,并取得了较为丰富的成果。但是这些基于深度神经网络的方法仍存在诸多不足。大多数基于卷积神经网络的模型为了获取文本的全局信息,只能堆叠多层,复杂化模型来增大感受野;而基于循环神经网络的模型虽然能学习较长距离的依赖,却难以实现并行化等问题。针对以上问题,本文设计出两种改进模型,一种是基于图卷积网络的关系抽取模型,另一种是基于BERT表征的关系抽取模型。本文的主要工作如下:(1)设计并实现一种基于权重图卷积神经网络的模型用于关系抽取。对于依赖型关系抽取任务,利用图卷积网络捕获依存句法树的依赖结构信息,通过逻辑邻接矩阵替代普通邻接矩阵的思想,对图卷积网络进行改进。并结合实体注意力机制,关注与实体对高度关联的全局信息进行关系预测。与普通图卷积模型进行对比,证明了该模型在关系抽取任务中的有效性。(2)设计并实现一种基于BERT表征并融合潜在实体类型的方法用于关系抽取任务。对于端到端的关系抽取模型,基于“预训练+微调”的训练方式,采用BERT预训练语言模型来提取文本的动态词向量表示。设计出多层级的注意力机制,首先从实体自身角度,学习实体的潜在类型表征,进行特征补充。再通过实体-文本注意力机制,捕获文本的关键性信息进行关系抽取。通过实验对比,证明了该方法可以提高关系抽取模型的性能。
其他文献
CT技术作为患者身体检查,诊断疾病的有效手段,已经在临床广泛使用。但CT检查过程中产生的射线对人体带来的伤害却也不能忽视。采用有效的手段可以减少CT检查过程中产生的射线量,比如降低管电压,降低管电流,降低曝光时间,减少采样角度等。但是降低辐射剂量,在CT成像过程中会产生CT图像上不属于组织结构影像的伪影,使图像细节模糊,图像清晰度下降,甚至会影响医生的诊断结果,给患者带来更为严重的危害。近年来,深
多智能体系统是由一群具备感知、通信、计算和执行能力的智能体经过互相关联而形成的一个网络系统。在多智能体系统中,包围控制是指智能体依据所获得的传感器数据,对目标或者目标区域进行环绕运动的一种控制方式,可应用于对目标的搜索、救援、探测、监测等场景下。本文研究了基于方向信息的多智能体包围控制问题。其中,基于方向信息是指智能体所搭载的传感器仅能测得自身和目标之间的相对方向,无法测得自身与目标之间的距离。基
近年来,随着计算机软件及硬件的飞速发展,深度学习得以在计算机视觉、自然语言处理、无人驾驶等领域崭露头角。卷积神经网络作为深度学习中最重要的模型之一,在图像分类、目标检测等方向上取得了优异的成绩,但也伴随着诸如过拟合、时间内存开销较大等需要解决的问题。作为最具代表性的正则化方法之一,Dropout方法通过屏蔽部分神经元参与训练的方式有效地抑制了过拟合现象的发生。但在卷积神经网络上,普通的Dropou
随着科技的发展,碳化硅高温压力传感器被广泛应用在石油钻井、化工冶金和航空航天等领域。目前国内外主要致力于传感器结构设计优化及失效分析和欧姆接触结构设计及失效分析等方面进行研究,对碳化硅高温压力传感器的应力模型研究报道较少。在广泛使用高温压力传感器的航空航天领域,传感器发生故障可能导致巨大的财产损失甚至危及人的生命安全。因此,研究碳化硅高温压力传感器结构在不同应力,尤其是综合应力下的应力模型,定量描
合成孔径雷达干涉测量技术(Synthetic Aperture Radar Interferometry,简称InSAR)是一门融合了 SAR成像和干涉测量的新技术,并且在三维重建和形变监测方面取得了重大成就。由于InSAR系统无法直接通过干涉相位获取准确的地球物理量,相位解缠作为InSAR技术流程中的一个重要环节,能够通过缠绕相位还原真实相位,从而使整幅图像能够提供有意义的信息。一方面,深度学习
由于单架四旋翼存在飞行距离短,载重有限等问题,因此在一定程度上限制了某些场景下的应用。多四旋翼协同控制能够很好的解决单架四旋翼存在的不足,如何协调多架四旋翼的协同控制成为研究的热点。首先,介绍了四旋翼飞行器的建模过程。第一步对四旋翼飞行器的组成和结构进行简介,然后再建立相关坐标系和四旋翼飞行器的数学模型,简要介绍模型预测控制,通过对模型进行分析,将模型解耦并线性化成平移和转动动力学的线性时变状态空
近些年来,随着机器学习和深度神经网络两个领域的迅速发展以及智能设备的普及,人脸表情识别技术正在经历前所未有的发展,基于深度卷积神经网络的人脸表情识别算法取得了长足的进步,并且已经超越了传统的人脸表情识别算法。同时,5G时代的到来以及大规模普及的软硬件基础条件也已具备,基于这种方法的市场与应用前景十分广阔。然而深度卷积神经网络存在着自身的局限,随着网络结构变得愈加复杂,训练参数量也与之增加,使用网络
在过去的几十年中,科技的进步推动着全球经济快速发展,也使得人民生活质量稳步提高,但是伴随而来的是越来越高的疾病入院率。呼吸系统疾病具有易感染、易复发、治疗周期长等特点,已经严重地威胁到了人们的身体健康,给全世界造成了沉重的负担。随着计算机科学技术的发展与大数据和人工智能的广泛应用,通过数据挖掘的方法对呼吸系统疾病的风险进行分析,既有助于对该疾病更为全面地认识和了解,也能够提高医疗服务体系的质量。本
这几年来,计算机视觉相关技术飞速发展。人体姿态估计作为研究人类运动的基本方法,成为众多学者们研究的热点。其主要任务是在图像中检测出人体关节和关键部位的坐标位置,从而得到人体局部或全部的肢体信息,以此来判断人体的行为。随着深度学习相关技术的快速迭代,基于卷积神经网络的人体姿态估计研究也取得了巨大的进步。基于自动特征提取的的深度学习方式已经能够替代传统的手工特征提取来实现输入端到任务端的点对点优化,当
翻译服务的重要性随着经济全球化的加速,日益显著。机器翻译相较于人工翻译,成本更低,速度更快,也因此更适应当今时代。神经机器翻译技术使用深度学习方法在平行语料上进行训练并获得翻译模型,已经成为当前主流的机器翻译方法。神经机器翻译快速发展的过程中,一直面临着较多挑战。在诸多挑战中,本文分别在数据稀疏和模型改进两个方面进行了研究工作,主要包括以下内容:1)提出了一种场景通用的数据增强方法。本文分析了富资