基于卷积神经网络的关系抽取研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:logepark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代拥有极度丰富的文本数据,然而这些信息往往以非结构化的形式存储,无法得到更为有效的深度利用。关系抽取将非结构化的自然语言文本转为结构化信息,进而可以辅助实现知识库构建,语义推理乃至于多轮对话等更高层次任务。在实体识别和链接等前序步骤的基础上,关系抽取对自然语言文本进行识别,找到其中蕴含的语义关系,进而得到结构化的三元组信息,实现实体间关系的构建。本文提出了基于数据先验的卷积神经网络模型,主要贡献如下:1.综合使用多种训练数据,较好解决了关系抽取数据获取难的问题。基于少量的结构化知识库和大规模的非结构化语料库,本文使用远程监督方法自动生成训练样本。然而,远程监督本质上是一种无监督方法,其产生的数据往往包含很多噪声,本文使用预训练模型和规则筛选得到过滤样本。再结合少量的人工标注样本,本文最终使用了三种训练数据。2.针对不同来源数据专门构建网络,将数据先验融入网络参数。人工标注样本最为准确但数量有限,远程监督样本数量众多但含有噪声,过滤样本数量中等但具有一定偏差。针对不同类型的训练样本,本文创新性的构建多个网络,网络间结构相同且参数共享,使用后验概率正则化方法得到融入数据先验的后验概率。3.使用多实例学习方法融合多个网络,进一步降低噪声的不利影响。针对不同数据来源的多个网络,本文使用多实例学习方法,将多种来源下样本组合为包,并以包为单位进行网络参数更新。在模型学习时偏向于更高精度的人工标注样本和过滤样本,减少远程监督样本的噪声影响,从而显著提高模型的准确性和鲁棒性。基于数据先验的卷积网络较好的解决了关系抽取中数据获取难和数据噪声大的难题,描述本算法的论文也发表在了信息检索领域的顶级会议SIGIR 2017中,受到了海内外研究人员的广泛关注。对比实验表明,本文提出的算法在TAC-KBP数据集上获得了目前最好的效果,准确率比现有最好方法提升8%以上。同时,本文提出的算法也在知识库构建,中国工程科技知识中心项目和多轮对话等多个任务中得到应用,进一步说明了算法的有效性。
其他文献
目的探讨胸腺肽α1对老年非小细胞肺癌患者化疗期间感染风险及预后的影响。方法选择非小细胞肺癌老年患者167例,分为观察组(72例)与对照组(95例),两组均采用GP方案化疗,观察
<正>一、问题的提出与研究意义为了更真实的反映会计信息和进一步与国际接轨,我国从2006年企业会计准则的颁布到2014年新增第39号会计准则,在制度范围对公允价值的规范越来越
<正>近些年来,随着人们生活水平的不断提高,很多中老年人全年参加游泳锻炼,已逐渐成为一种时尚。游泳不仅是一项增强体质,磨炼意志、有益身心健康的运动,而且对配合临床治疗
近年来,洗发、护发、染发、定型类等发用产品的消费比例不断增长。但是,目前市售的定型类发用产品(如喷发胶),存在定型聚合物与烃类抛射剂相容性差,导致瓶口堵塞的问题,使得
养老制度的建立一直都是世界各国重点关注的问题,我国养老制度种类繁多,解决农村养老问题的一项重要举措就是社会养老保险。因为目前我国农村各地区经济发展水平差距较大,各
目的 探讨气压治疗仪预防妇科恶性肿瘤根治术患者术后下肢深静脉血栓形成的效果.方法 选取2018年2月至2019年2月在江西省妇幼保健院进行妇科恶性肿瘤根治术治疗的患者90例作
以适于油炸加工的马铃薯品种‘大西洋’为原料,对真空低温油炸薯片工艺进行优化试验。采用四因素三水平正交试验分析法,得出最佳工艺条件为油炸温度100℃、时间90s、真空度为
目的:建立以离子液体1-丁基-3-甲基咪唑溴化盐([BMIM]Br)为萃取剂,结合超声辅助萃取,利用高效液相色谱法同时分离测定桑叶中的桑色素、槲皮素和山奈酚3种黄酮的方法。方法:采
疾病史视野中的江南是一个疾病丛生的区域。无论是乡村,还是城镇,许多传染病都存在或者盛行。传染病在这个区域的散发、暴发或者流行,与该区域特殊的地理环境,尤其是独特的水
为克服机电伺服系统的摩擦以及其它力矩干扰问题,提出一种基于LuGre模型的摩擦前馈补偿和基于扰动观测器反馈补偿的复合控制策略。以某型号惯性稳定平台的单轴转台为例,首先