远监督关系抽取中的训练样例选择方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:acmilanno1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
远监督关系抽取由知识库提供监督,自动产生大规模标注数据,能降低对人工标注的依赖。但是自动标注数据存在噪声,直接用于训练将影响远监督关系抽取模型的性能。训练样例选择是解决远监督关系抽取中噪声问题的重要方法,它从训练样例集合中选择具有正确标注的训练样例,从而减少噪声对远监督关系抽取模型性能的影响。训练样例选择方法分为隐式方法和显式方法。隐式训练样例选择方法主要包括概率图模型(Probabilistic Graphical Model,PGM)和深度神经网络(Deep Neural Network,DNN)。前者采用隐变量估计出置信度高的训练样例用于训练,但是无法充分利用其它正确的训练样例。后者采用注意力机制调整训练样例的权重以降低噪声对远监督关系抽取模型的影响,但是无法将噪声从训练样例集合中移除。显式训练样例选择方法包括基于领域知识的方法和基于强化学习(Reinforcement Learning,RL)的方法。前者利用单一类型的领域知识,无法综合利用多种类型的领域知识。后者主要采用基于on-policy的强化学习算法,缺少基于off-policy的强化学习算法的系统研究。针对远监督关系抽取中训练样例选择方法存在的问题,本文提出以下解决方案。(1)针对隐式训练样例选择方法存在的问题,首次提出一种基于解释学习(Explanation-based Learning,EBL)的显式训练样例选择方法。该方法采用回答集编程(Answer Set Programming,ASP)语言表示领域知识和训练样例选择规则。并且改进了解释学习算法,使其能够利用不完美的领域知识学习ASP规则集合。不仅能充分利用正确的训练样例,而且能将噪声从训练样例集合中移除。实验结果表明,该方法能有效学习ASP规则,在训练样例选择方法的比较中其召回率超过基于概率图模型的基线方法30%。(2)针对显式训练样例选择方法无法解决多种类型领域知识相互冲突的问题,提出一种基于马尔可夫逻辑网(Markov Logic Network,MLN)的显式训练样例选择方法。首次提出一种马尔可夫逻辑网模型来处理用于训练样例选择的多种类型领域知识之间的关系。实验结果表明,该方法能针对不同的关系类型选择有效的领域知识,在纽约时报(New York Times,NYT)数据集和维基百科(Wikipedia)数据集的训练样例选择实验中平均F1值分别超过基于单一类型领域知识的基线方法22%和27%。(3)针对显式训练样例选择方法中off-policy强化学习缺乏系统研究的问题,提出一种基于深度Q网络(Deep Q-Network,DQN)的显式训练样例选择方法,并系统地研究了off-policy强化学习算法在训练样例选择中的性能。在off-policy强化学习算法中,首次提出一种Top-k行为策略来产生更多有效的经验数据。实验结果表明,该方法在不需要领域知识和人工标注的前提下能够从试错经验中有效地学习训练样例选择策略,采用off-policy强化学习算法在不降低训练样例选择性能的前提下收敛速度是基于on-policy的基线方法的6倍。
其他文献
制冷技术关系国计民生,在小到生活家电,大到航空航天、精密仪器及国防器件等诸多领域发挥着重要作用。基于磁热效应的磁制冷技术具有绿色环保可持续、制冷效率高、机械振动和噪音小等优点,有望替代传统气体压缩制冷技术。作为磁制冷技术的核心,探索制备性能优异的磁制冷材料具有重要的科学意义和社会价值。稀土基非晶磁制冷材料因其优异的磁热性能和特殊的电子结构引起了科研工作者的广泛关注。有限的非晶形成能力极大制约了稀土
学位
2-D(two-dimensional)系统的滤波和控制问题一直是控制理论研究领域的热点之一。2-D系统的相关理论起源于多维线性滤波的研究,具有深刻的实际应用背景。2-D系统与1-D(one-dimensional)系统最显著的不同在于2-D系统是沿两个互不相同的方向(通常称为水平方向与垂直方向)进行演化,目前已广泛应用于图像处理、热传导过程、地震数据分析与处理等领域。近年来,随着通信和计算机技术
学位
随着物联网与传感器网络技术的迅猛发展,应用场景的复杂性与多样性对于传感器节点的设计提出越来越多新的要求。LC型无源无线传感器基于磁场耦合原理,能够将待测参量转换为传感器的谐振频率,并通过一个探测线圈无线读出,具有结构简单、无需电源、适应性强等优势,引起了国内外研究者的广泛关注。传统的LC型传感器通常只能实现一个参数探测,难以满足不同应用下的多样化需求。本文致力于对LC型无源无线传感器的底层技术研究
癌干细胞(CSCs)与癌症转移、侵袭、恶性转变等行为相关,被普遍认为是化/放疗抗性和癌症复发的重要根源。为了更加针对性地研究其作用机制,需要分离或富集出CSCs。近年来随着三维细胞培养技术的发展,水凝胶因具有广阔的生物医学应用前景而成为当下研究的热点之一。细胞外基质相当于一个多组分的凝胶体系。本论文以甲基乙烯基醚-马来酸交替共聚物[P(MVE-alt-MA)]为主要原料,构造了基于P(MVE-al
生物传感器在生物医学工程中占据了举足轻重的地位,在人类医疗健康领域有着卓越的应用价值。通过对疾病相关的生物标志物进行分析,可以准确的对疾病进行诊断。多元分析技术可以同时对多种疾病相关的生物标志物进行量化,因此得到了广泛的应用。对于多元分析技术来说,开发一种合适的编码微载体是最关键的环节。相比于平面微阵列,编码微载体可以在液体中流动悬浮,与待测样品更充分的反应,成为了生物传感的热门选择。传统方法制备
超宽带高性能光纤接入网(OAN)和5G移动通信网正逐步打造我国“新基建”信息网络接入侧的坚实基础,下一代无源光网络(PON)架构对OAN安全性和可靠性提出了更高的要求。传统PON链路安全管理体系低效费工,在接入侧缺乏有效的链路状态感知和安全管理能力,亟待探寻高效链路安全管理方法和技术。本文以实现二维光编解码无源光网络链路健康检测系统(2DOC-PON-LHDS)应用为目标,深入研究系统用户链路状态
随着时代的发展,农村地区的建设和发展受到前所未有的关注和重视,与城市住宅相比,农村住宅的建设一直处于相对落后的局面。在夏热冬冷的苏南地区,室内热环境质量差、能效低等问题一直影响着农村居民生活质量的改善。而围护结构作为农宅最主要的组成部分,是影响建筑节能、室内热环境质量的重要影响因素。由于农宅自筹自建的方式、对建筑低能耗技术认识不足和各主体的利益不一致等问题,都造成了农宅低能耗技术推广困难。如何兼顾