基于互信息的远监督神经网络关系抽取

来源 :吉林大学 | 被引量 : 0次 | 上传用户:huier0001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
远监督关系抽取任务通过将知识库中的关系事实与语料库对齐自动产生训练数据,有效地减少了手工标记数据的成本,并且被广泛地应用在大型语料库中以查找新的关系事实。然而该方法在自动生成训练数据的同时却不可避免地引进了大量的噪声数据,这对于模型的训练很不利。在这里我们利用互信息分别从句子级和单词级进行降噪,以解决此问题。我们的方法均是通过有效句子间的互信息实现,而该信息的获取主要基于“有效句子间是存在联系的,往往共享一些共性信息,而无效的句子通常与其它句子无联系”假设。我们在包内将每个句子相互之间进行对比交互后,利用注意力机制为每个句子获取与包内其它句子间的共性信息。最后将收集到的包含正确信息的共性信息作为句子间互信息,利用该信息对数据进行降噪。一方面,多数句子级降噪方法通过基于句子编码后输出的信息进行降噪,句子之间往往相互独立,这经常会导致部分关键信息的丢失。在获取每个句子互信息的过程中,标记正确的句子相比较错误标记的句子能够收集到更多共性信息。利用基于输出层句子编码后得到的互信息,我们将原来得到的句子信息进一步补充,使得模型在识别每个句子信息时都能参考包内其它句子信息,避免关键信息的丢失。同时也强调了有效句子中的正确信息,从而模型更易识别出正确的句子。另一方面,远监督关系抽取任务也存在着单词级别的噪声问题,即不是每个单词都参与关键信息的构建。我们结合密集网络多层次的特点,使用网络中间层句子编码后收集到的互信息进行单词级的降噪。正确句子间的互信息中含有关键信息,而关键信息的构建也一定是来自重要单词,所以参与关键信息构建的单词一定与互信息之间存在联系。我们通过增加与互信息关联值大的单词权重,进而提高模型在单词级别的抗噪性。本文主要贡献:(1)首次使用互信息优化远监督关系抽取任务,通过对该信息的获取,提高了包内句子间的联系,也避免重要信息的丢失。(2)将编码后的句子特征利用互信息进行补充,丰富了句子特征的同时也使得模型更易识别出正确的句子,提高模型的句子级抗噪性。(3)结合密集网络设计关系抽取模型,使模型拥有获取深层语义的能力,而且利用从密集网络得到的互信息降低了噪声单词对模型的干扰。为了保证实验的可比性和公平性,我们选择公测数据集和相当的参数规模进行了对比实验。我们在句子级与相关基线方法进行比较实验,还进行基于密集网络模型的抗噪性验证实验。在此基础上,在单词级与相关的方法进行了对比实验。模型同时在句子级和单词级降噪表现最优。结果表明,基于互信息的方法在单词级、句子级以及同时在两级上的效果相比对应最新基线方法都有提高。
其他文献
在自然语言处理(Natural Language Processing,NLP)领域中,命名实体识别(Named Entity Recognition,NER)是核心问题之一。从经典机器学习、深度学习再到如今的预训练模型方法,命名实体识别经历的三大发展浪潮也映射了NLP的不同发展阶段。经典机器学习方法如HMM和CRF等,虽然在一些数据集上的实体识别取得了很好的效果,但由于模型经常使用不恰当的生成概
近年来,随着中国经济快速发展,城市居民拥有的私家车数量也在急剧增加,由此产生了停车难问题。如何借助信息化技术来解决这一问题是当前的研究热点。为了解决上述问题,本文依托吉林省重点科技研发项目“基于车联网的城市停车位智能服务平台的构建”,设计并实现了一种智能停车客户端,力求为用户提供方便快捷的停车服务。由于寻找停车位的过程中路径规划可能不精确,针对这个问题,本文提出了自适应布谷鸟混合算法,并在相关数据
停车位智能服务平台的运行过程中,各通信角色之间,特别是客户与停车场管理员之间、平台内部各节点之间会持续进行数据传输,此时若不对信息进行保密防护,会导致用户个人信息、支付数据以及账户口令暴露于开放的互联网空间,中间人通过技术手段可窃取私密信息,导致用户财产损失及信息失窃。要想保证平台的安全顺利运行,通信数据的安全是必须要考虑的重要技术问题。为保护平台通信中的信息安全,最可靠、最可行的手段是应用现代密
当前的汽车行业中,电动汽车已经渐渐成为研究的主要方向,然而目前市场上的动力电池,因为其充放电特性,能量密度,快充等技术条件的限制,一直在制约电动汽车的发展。在电动汽车的解决方案中,增程车的发动机工作特性好,排放性能优越,续航里程场长,使用成本低,是电动汽车的中间方案中一个比较好的选择。其中比较重要的部件是增程器(Auxiliary Power Unit,APU),动力电池以及驱动电机。而其中的动力
道路条件的环境感知是汽车自动驾驶技术的重要环节,提前获得的道路条件信息,能够为自动驾驶车辆在行驶过程中的启动、转向和停止等操作实时提供操作判别依据。本文以非结构化道路为研究对象,探究其道路区域检测及路面类型识别算法,为车辆提供可靠精准的输入信息,从而实现车辆在非结构化道路行驶的精确控制。对非结构化道路区域检测和类型识别的研究主要基于视觉信息方法进行,需要在汽车上安装相机或摄像头等传感器。本文依托于
背景:间充质干细胞是再生医学中的理想候选者,目前其临床应用受限于由移植微环境改变导致的细胞存活率降低和旁分泌能力差。预处理策略被认为可以最大限度地提高间充质干细胞在移植微环境的存活率和生物学作用,为严重烧伤的治疗提供新思路和潜力。目的:对间充质干细胞预处理策略在严重烧伤治疗中的潜力进行综述。方法:以“间充质干细胞,严重烧伤,间充质干细胞预处理,烧伤病理生理学,严重烧伤”和“mesenchymal
近年的高考物理电学实验中,以定值电阻为背景的设计性试题层出不穷。定值电阻在电学实验中的作用灵活多变,但很多学生不知道定值电阻的作用和其对电路的影响,故对它的选用感到无从下手。鉴于此,本文结合往届高考试题,对电学实验中定值电阻的主要用途进行简单小结。
无人驾驶技术在计算机技术和人工智能技术快速发展的推动下,正在全球掀起热潮,众多科技公司、整车厂和高校都在积极探索无人驾驶技术。无人驾驶技术不仅能够给人类的日常生活带来极大的便利,同时能够在生态保护、安全交通、缓解城市交通压力等方面提供完美的解决方案。无人驾驶的实现需要传感技术、定位技术、融合预测技术、决策规划技术、线控技术等协调发展。为实现汽车的无人驾驶,一个重要的亟待解决的关键技术便是自主换道技
随着自动驾驶的研究逐步走向实用化,人们对自动驾驶准确性与安全性的要求也越来越高。自动驾驶系统是一个高度自治的系统,包括感知模块,路径规划模块,行为决策模块和自适应控制模块,其中行为决策模块是确定自动驾驶汽车安全性和稳定性的关键技术。现有的主要决策算法可以分为三类:基于规则的方法,强化学习方法和深度学习方法。基于规则的方法对于简单场景的准确性很高,但是规则制定方法的复杂性限制了它在复杂环境中的进一步
根据中国癌症中心发布的报告,脑癌是发病率第二高的儿童癌症,也是15-34岁成年人癌症死亡的第三常见原因。脑癌的治愈率并没有随着科技的进步而提升,只有及时发现并及早治疗才能有效提升患者的治愈率与存活时间。随着医疗影像技术的进步和推广,核磁共振技术(MRI)成为了脑癌的主要诊断方法,该技术可以帮助医生在不通过外科手术的情况下诊断出脑癌。但医疗影像的判读需要医生拥有丰富的临床经验,同时筛查细节较多的脑部