基于半监督和深度学习的生物实体关系抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:fugaowen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物医学文献的快速增长,生物文献中的信息抽取技术已经得到广泛的研究,目前为止,生物医学文献信息抽取中的大部分工作都涉及到关系抽取。生物领域中的关系抽取主要集中于从生物医学文本中识别出生物医学实体名称(蛋白质、药物、疾病、基因等),进而提取生物实体之间的语义关系。本文主要研究疾病-病症、病症-治疗物质和蛋白质关系抽取,提出了基于半监督学习和深度学习的方法分别解决实体抽取过程中存在的缺少标注语料集和人工特征构建的问题。为了解决在疾病-病症和病症-治疗物质关系抽取中缺乏语料集的问题,本文采用Co-Training和Tri-Training两个半监督学习的方法构建疾病-病症模型和病症-治疗物质模型。在训练过程中使用特征核、图核和树核作为Co-Training和Tri-Training方法的输入视图。在Tri-Training的训练过程中采用组合学习的方法将分类器集成在一起。实验结果表明,Co-Training和Tri-Training方法都可以利用未标注语料集在初始语料集少的情况下提升训练性能。并且在实验中Tri-Training方法的性能要优于Co-Training方法。使用半监督学习方法进行疾病-病症和病症-治疗物质关系抽取时,需要构建大量的人工特征,这些特征的质量直接影响实验结果。而且大量人工特征的构建既费时又费力。针对这个问题,本文提出了基于卷积神经网络的疾病-病症和病症-治疗物质关系抽取的方法。该方法可以从输入语料中自动学习特征,获取特征的层次结构,降低人工构造特征的成本。同时本文使用Tri-Training的方法扩充语料集。实验表明与Tri-Training方法相比卷积神经网络的方法可以获得更好的实验结果。使用半监督学习方法进行关系抽取时存在两个方面的问题,一方面,半监督学习方法在未标注语料选取时选用分类器标注一致的样本,这将损失掉一部分信息。另一方面,在未标注样本加入训练集的过程中,这些样本可能会被标注错误。为了解决这两个问题,本文提出了基于改进的Tri-Training进行蛋白质关系抽取的方法。该方法在对未标注语料选取时选用三个分类器标注最不一致的样本。并使用主动学习的方法对所选取的样本进行标注。在AIMED语料集上实验取得了68.80%的F值,实验结果表明该方法和其他方法相比具有较好的性能。
其他文献
无线传感器网络(wireless sensor network,WSN)的主要功能是对监测区域的事件对象进行有效的监测。以数据为中心的网络更关注兴趣事件发生,而非某个节点的监测值。以数据为中
随着高校招生规模的不断扩大,招生后期的数据处理与迎新工作变得更加繁重,各高校普遍希望将信息技术引入到迎新工作中,加强参加迎新的各个部处间的信息流通和工作配合,使迎接新生
据统计,互联网上在线发布的网页早已达到亿数量级,并以每天百万页的速度在增长。用户在需要克服语言障碍的同时,如何准确地在Internet这样一个开放式的数据库中找到相关信息,
Reed-Solomon纠错码算法作为编解码领域中出色的算法被广泛应用于各个方面。尤其在数据恢复方面的应用较为突出。算法本身又构建于有限域的数学运算之上,从而凸现了有限域运
由John Lafferty等人在2001年提出的条件随机域(conditional random fields,CRF)模型是机器学习领域的一个重要里程碑,它综合了以往机器学习中几种模型的优点,包括隐马尔可夫
随着网络和多媒体数字技术的快速发展,多媒体信息在网络上的应用越来越频繁,信息安全问题日渐突出。大到国家的军事、政治、商业等信息的安全,小到个人隐私的泄漏,使多媒体信
随着多媒体技术的快速发展及Internet技术的日益普及,数字图像的来源越来越广泛,每天各个领域都会产生数以千兆字节的图像信息。如何从浩瀚的图像信息中快速准确的查找出用户
图像匹配是计算机视觉和图像处理领域一项重要的研究工作,本文主要对图像匹配领域进行了深入细致的研究。 本文主要研究了两类图像匹配算法:基于灰度信息的算法和基于特征的
对于大型金融机构,金融基础数据存放在较多的分布于全球的数据服务器中,而与基础数据相关的数据不一致、不准确或不完整问题是金融服务行业中交易失败的主要原因。因基础数据