【摘 要】
:
随着生物医学文献的不断增加,大量的有用信息埋藏在文本里,因此生物医学方面的文本挖掘成为当今研究的热点问题,蛋白质关系抽取作为文本挖掘的子任务,不仅对蛋白质知识网络的
论文部分内容阅读
随着生物医学文献的不断增加,大量的有用信息埋藏在文本里,因此生物医学方面的文本挖掘成为当今研究的热点问题,蛋白质关系抽取作为文本挖掘的子任务,不仅对蛋白质知识网络的构建有帮助,同时对蛋白质关系的预测,新药的研制均具有非常重要的意义。本文重点研究基于核函数与SVD的蛋白质关系抽取方法,主要研究工作有基于集成核函数的蛋白质关系抽取,多核学习的蛋白质关系抽取,协同训练以及基于SVD的蛋白质关系抽取方法。本文首先提出了一种集成核函数方法,将本文自定义的路径核函数与基于特征的线性核函数集成,其中自定义的路径核方法,针对句法分析树中提取出来的路径,从路径的长度与维度两方面考虑设计路径核函数,并且应用集成核函数方法抽取蛋白质之间的关系,取得较好效果。其次,本文使用多核学习方法应用于蛋白质关系抽取中,其中的多核主要包括词特征核,树核,以及路径核。多核学习方法尽最大可能地提取句子中的语法,语义,词汇等信息,提高蛋白质关系抽取的效果。本文针对于已标注语料少的情况,还提出了协同训练方法,解决了人工标注代价大的问题。本文协同训练方法中两个视图分别是词特征视图和树核视图。在初始化很少的标注语料上训练,对未标数据测试,然后添加到对方标注语料中,反复循环,相互学习,达到相对稳定状态。最后,本文丰富特征表示,使用具有位置信息的单元词特征,二元词特征,同时引入SVD方法提取语义相关特征,实现蛋白质关系抽取,并与他人研究方法进行对比,在交叉实验中取得较好效果。这四种方法分别适用于不同的情况,在特定环境下,表现出较好的性能。在不考虑特定环境的情况下,多核学习方法表现较好,具有通用性,可以广泛使用,并且能够取得较好的抽取效果。
其他文献
对视频序列进行运动目标检测在机器视觉应用中起到很重要的作用,包括人体识别和跟踪、车辆检测、人机交互和军事应用等领域都有广泛的应用。运动目标检测是更进一步复杂处理
实时数据库系统具有及时响应、高可靠性、专用性等特征,被广泛应用于工业控制、军事防御、信息通讯、网络传输、媒体处理等专业领域。这类系统必须具备在无人工干预下运行的
无线车载网(Vehicular Ad Hoc Network,VANET)是智能交通的重要组成部分,它可以提供包括公共安全在内的各种应用。当车辆处于危险状态时,需要向周围车辆发送紧急信息,这些信息对服
科学计算可视化是20世纪80年代发展起来的一门新兴学科,已经广泛应用于医学、地质学、气象学等诸多领域。科学计算可视化技术的核心是三维数据场的可视化。体绘制技术是常用
近年来,随着移动互联网技术和智能设备的快速发展,带有感知能力的移动终端设备赋予人们强大的感知能力和信息共享能力。移动群智感知是一种新的感知模式,在移动群智感知中,携
图像分割是计算机视觉领域中一个基础而又重要的问题,它为图像、解提供信息支持。本文研究基于主动轮廓模型(ACM:Active Contour Model)的图像分割方法,着重研究梯度矢量流(GVF:Grad
随着人类基因组计划(Human Genome Project,HGP)的顺利完成及各种模式生物基因组计划的相继实施,大量的生物分子数据源源不断地产生。对这些数据的保存、处理、分析和研究推
随着信息社会的发展,越来越多的地方需要快速而准确的身份认证,如海关,银行金库等。而人脸识别技术具有直观性,被动性,和非侵犯性,因而成为当今生物识别技术中最为活跃的一个
数据库中的知识发现(Knowledge Discovery in Databases,KDD)是利用计算机自动地从海量信息中提取有用的知识,是一种有效利用信息的新方法,目前已成为数据库领域的研究热点之一
优秀的室内覆盖方案一方面可以让网络发挥最大作用,为运营商创造更大的价值,另一方面也能大大节省运营商建网成本,真正实现低投入高回报,因此,室内覆盖已成为运营商3G网络建