基于样本选择和连续学习的关系抽取研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：pjkxqx

【摘要】

：

【作者】

：

郑天鹏

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2020年期

【关键词】

：

样本选择连续学习关系抽取抽取模型远程监督训练阶段去噪方法权重自然语言处理梯度分布数据集选择策略

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关系抽取任务作为自然语言处理问题中重要的一环，旨在从非结构化的文本中抽取出实体以及实体之间的关系信息，并且以结构化形式储存在计算机中，或提供至下游的其它自然语言处理任务。基于机器学习的有监督方法是关系抽取任务的主流方法，然而模型的有监督学习需要大量的、特定领域的标注语料，现实场景中却极其缺乏，且人工标注的成本很高。远程监督方法在一定程度上能为模型的训练提供大量的标注语料，但因其假设过于强烈，使得标注信息中包含大量的噪声。尽管如此，由于远程监督能带来丰富的训练语料，所以在其基础上不断有新的探索方法，其中的多示例学习和注意力机制等代表性去噪方法，使模型在训练阶段能给予正确样本更高的权重，从而提升模型的鲁棒性。两种常用的远程监督去噪方法在关系抽取模型上很有成效，但两者仅对少量置信度高的样本分配较高的权重，相较于远程监督数据集的总体规模来说，样本利用率较低。
　　本文针对现有关系抽取问题中存在的不足之处，提出了两种用于去噪的关系抽取模型框架:(1)在训练阶段引入样本选择策略:在模型进行随机梯度下降的训练过程中，根据批中每个样本的损失函数值与梯度分布分配相应的权重，损失值较高的样本和梯度分布不均衡的样本皆视为含噪样本并分配较低的权重，使这些样本减轻对模型梯度更新的影响;此外，随着模型的训练迭代，样本的权重会动态变化，给予样本更加适当的权重;(2)采用连续学习方法:对给定的样本训练集，首先令其在模型上预训练，并根据样本选择策略中的自步-梯度机制，按照样本的计算权重值与闽值令训练集分成数个子集，子集具有不同的样本分布特征，而后按子集特征顺序依次训练模型;针对连续学习可能存在的遗忘问题，该方法在训练阶段引入插话式记忆复现机制，并且在模型的隐藏层与输出层之间叠加线性变换层，对样本在嵌入空间中的表示做正则化，使得不同训练阶段的样本嵌入表示差别较小，有效地保留前阶段模型学习到的样本特征分布。
　　为了验证上述的两种关系抽取算法框架的实际效果，本文在关系抽取领域中广泛使用的多个数据集上进行实验。实验结果显示，两种方法对于远程监督的关系抽取任务，与传统的关系抽取去噪方法相比，在性能上皆有所提升，且对于非远程监督关系抽取数据集，两种方法也有一定的提升。此外，本文中所叙述的关系抽取算法在TAC2018DDITrack取得了最高的准确率，并且应用于知识中心项目的药物相互作用关系抽取API提供。

其他文献

试论国有企业在党史学习过程中存在的问题及对策

摘要：学习党史也是是坚定信仰信念、在新时代坚持和发展中国特色社会主义的必然要求。国有企业在承担经济责任的同时，也要承担相应的政治责任。国有企业在党史学习过程中存在理论学习不够深入，理论与实践联系不够紧密等问题，客观上也对党史学习教育活动有一定的制约作用。本文针对国有企业在党史学习过程中存在的问题提出相应的对策，有了利于党史学习教育进一步深入。　　关键词：国有企业、党史学习、问题、对策　　在2021

期刊

钦州坭兴陶雕刻装饰技法及创新思路

摘要：我国早在远古时期就已经开始制作并使用陶器，陶器的发明为我国远古时期的先民带来了极大的便利，并对他们的生产和生活起到了促进作用。伴随着陶器的生产和使用，陶器表面的图案花纹雕刻也随即出现，并且由最开始简单的动物图案发展得越来越复杂精美，坭兴陶的发展也是如此。随着坭兴陶的发展，它已经具有了使用价值之外的艺术价值。为了提升现代坭兴陶的雕刻艺术水平，本文对坭兴陶的雕刻图案文字进行了阐述，指出当代坭兴陶

期刊

如何培养班干部

作为一个班级，班干部是班集体的组织和领导者，是连接学生和教师的桥梁和纽带。一个优秀的班集体必然会有一支战斗力、凝聚力强的班干部队伍;在班级管理中他们必定成为是班主任的得力助手，协助班主任建立起班级正常运转秩序，形成良好的班风，创造良好的学习环境，出色地组织开展丰富多彩的班级活动;班集体的成长与学生干部的成长相得益彰。　　一、准确定位，担当好榜样　　有些班主任认为，学生还小自己都管不住自己，基本上没

期刊

酒泉方言语音特点探析

摘要：酒泉方言属于北方方言，因其在声母、韵母、声调方面的独特个性，使其既与同属于北方方言的兰州方言、宁夏方言、陕西方言有别，也于同属于河西走廊一带的武威方言、张掖方言不同，因而在北方方言中独树一帜。酒泉方言语音的特点是语调平缓，高低起伏不大，声母、韵母和声调与普通话非常接近，很容易被人听懂。和普通话相比，酒泉方言最明显的特点是声母中的舌尖中音、鼻音n和舌尖中音、鼻音l区分不清;舌尖后音zh、ch、

期刊

侗族村寨传统民居建筑的保护机制与乡村旅游开发

摘要：侗寨传统建筑一般是由杉木建造而成的，有一至两层的小房，也有三到四层的高楼，还有依照地形走势而建造的吊脚楼。侗族鼓楼是侗寨独具特色的建筑物，通常小户村寨建有一-两座，大户村寨建有四五座，其平面多为四边形、六边形和八边形，成双数建造;立面为七重檐、九重檐、十一重檐和十五重檐，成单数建造;各翼角均有彩塑，各檐口均有彩绘。侗寨的区域不同鼓楼的造型也不相同，其中广西三江、龙胜和湖南通道一带的鼓楼为

期刊

医院人文关怀融入医院文化建设探讨

摘要：在新冠疫情的影响下，医疗卫生体系的改革已经成为当前社会发展的重点关注对象。随之而来的是对各种医疗事件的社会关注度不断提高。很多的社会热点事件也直指当前“医院”这一社会热点。在这样的情况之下，很多地区的医院开始抓紧时间对自身进行全面的“检查”，从而提出了一系列的自身改革的方案。其中，最受广大职工欢迎的是人文关怀与文化建设。本文就从当前的医院角度出发，就如何将最新的医院人文关怀融入到医院文化建设

期刊

新时代视角下医院健康治理体系路径的研究

摘要：中国特色社会主义进入了新时代，医院健康治理体系位于中国特色社会主义新时代，医院应着手于人才引进、药品零差率、服务质量、科学章程、成本核算、绩效考核等方面，研究新时代视角下医院健康治理体系路径对提高医院管理水平具有重要的理论和实践意义。　　关键词：新时代;健康治理体系;路径　　党的十九大报告中明确指出，“中国特色社会主义进入了新时代”，这是对我国发展所处新的历史方位的一个重大科学判断[1]。医

期刊

现代搏击运动兴盛下中国武术的商业化运营模式探讨

摘要：随着现代搏击运动的愈發兴盛，中国武术得到了广泛的流传，人们对传统武术的传承意识在不断地提升。与此同时，武术的商业化也更加凸显，多项武术商业化的成功给大家提供了范例，但其在运行中的经营模式还存在着诸多问题。因此，本文结合目前国内的实际情况，充分分析市场上的武术商业化的经营现状和经营模式，发现其经营方式正由政府主导、市场参与向市场主导转变。最后，文章从提高武术的商业开发强度、增强武术比赛的娱乐色

期刊

浅谈政工师在思想政治工作中的重要作用

摘要：首先，本文重点阐述了政治工程师在思想政治指导过程中的重要价值，认为政治工程师的工作价值应体现在四个方面：坚持底线，引导员工真正树立思想政治指导思想;塑造积极的员工创业精神文化，引导员工核心价值观;提高员工团队精神和工作效率的凝聚力;增强全体员工的核心大局意识。然后，对充分发挥政治工程师在思想理论政治工作中的领导价值的四项具体措施进行了简要详细的阐述，并从确立统一的指导思想、提高高度重视、不断

期刊

新媒体时代的电影营销策略

摘要：近年来，我国的电影产业得到了飞速的发展，这其中有政府的关注重视并提出了扶持政策的原因，也有电影人及团队共同努力的结果，且当前正处于互联网信息化时代，新媒体的存在为电影产业的发展提供了巨大的优势条件。由此，本文以新媒体背景境下《你好，李焕英》电影的营销策略研究课题为例，首先，对新媒体时代电影营销策略的现状进行分析;并结合现状探究了在新媒体背景境下电影营销存在的问题，最后，针对这些问题对《你好，

期刊

基于样本选择和连续学习的关系抽取研究

与本文相关的学术论文