融合领域知识的生物医学关系抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ttjjww1129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物医学领域,每天都会有大量的生物医学文献公开发表,而这些文献中蕴含着许多新的药物、疾病、症状之间的相互作用关系,是生物医学研究的重要资源。截至2021年2月,美国国立图书馆所设立的国际性综合生物医学信息书目数据库Medline中就已经有超过2700万篇以上的文献。从这些海量的生物医学文献中高效、准确地抽取出结构化的生物医学知识,对于加速生物医学相关领域的研究具有重要意义。当前,生物医学领域关系抽取研究主要依赖于监督学习方法,对于标注数据的依赖性较强。然而构建高质量的生物医学标注数据,不仅费时费力,而且需要标注人员具有一定的生物医学领域知识。因此,生物医学领域标注数据的缺乏极大制约了生物医学关系抽取研究的实际应用价值。本文通过引入对抗域训练和生物医学领域知识源,降低生物医学关系抽取模型对于标注数据的依赖,提升模型在少标注样本情况下的关系抽取性能。(1)基于对抗域适应的生物医学关系抽取针对目标任务标注数据(目标域数据)相对较少的情况,通过引入对抗域适应学习方法,利用标注数据充足的相似任务数据集(源域数据),提升模型在目标任务上的抽取性能。由于目标域数据与源域数据的分布差异,本文基于对抗域适应策略,调整模型的参数,以适应目标域数据的分布特性,利用源域标注数据提升目标域任务的性能,减少模型对于目标域标注数据的依赖。(2)基于知识模型的生物医学关系抽取在生物医学领域建有相对完整的领域知识源,这些知识库中的结构化知识,对于相关领域的生物医学关系抽取具有很强的指示意义。本文基于知识表示学习方法,对生物医学知识库中的三元组进行知识表示学习,获得实体以及关系的知识表示;使用拼接的方式,将学习到的知识信息融合进生物医学关系抽取模型,通过引入相关领域知识,减少生物医学关系抽取模型对于标注数据的依赖。本文提出的基于对抗域适应的生物医学关系抽取方法和基于知识模型的生物医学关系抽取方法分别在国际公开的生物医学关系抽取数据集上进行了验证和评估。实验结果表明,本文提出的方法能够通过引入相关任务标注数据和生物医学领域知识,有效降低生物医学关系抽取模型对标注数据的依赖性。
其他文献
图像去噪作为计算机视觉领域内重要的研究方向之一,在军事、民生等各个领域具有广阔的应用场景。数字图像由于成像系统、传输媒介等因素的影响,在采集、压缩和传输过程中可能被噪声破坏,进而导致图像信息的失真或丢失,使图像质量发生退化。因此,对带噪图像进行降噪处理是十分必要的,图像去噪效果优劣将直接影响到后续处理能否顺利进行。本文以深度卷积网络为基础,提出了基于深度卷积网络的图像去噪算法。为在降噪过程中充分利
国家体育队伍越来越重视将最新的计算机技术与传统的体育项目相结合,以便提高运动员训练和分析水平。目前,在针对排球的体育训练中,仍然主要依赖教练的个人经验,训练成本较高,质量难以保持稳定。对此,国内有体育单位引进DataVolley等专业软件辅助训练,但其需要人工录入复杂的动作记录描述;也有研究机构依靠人体传感器获取运动参数的方法,但其会对运动员的活动造成不便。发球是排球基础且重要的技术动作之一,其动
目的探讨绝经后女性2型糖尿病伴骨质疏松患者骨密度与N-端骨钙素(N-MID)、总Ⅰ型胺原氨基端延长肽(T-P1NP)、G-胶原特殊序列(β-CTX)、胰岛素样生长因子-1(IGF-1)的相关性研究。方法选取2017年3月—2019年8月该院收治的绝经后女性2型糖尿病伴骨质疏松患者321例,根据骨密度水平将其分为3组,分别是:骨量正常组107例、骨量减少组107例及骨质疏松组107例。比较3组一般资
海岸侵蚀是受海水动力冲击影响,形成的岸线后退和海滩下蚀的现象。海岸侵蚀的诱因可分两种:一种是自然原因(河流改道、海面上升和海洋动力作用加强等);另一种是人为原因(拦河坝的建造、大量开采海滩沙和滥伐红树林等)。近年来,经济迅速发展,生态修复工程也日益增多,准确的波浪、砂质海岸侵蚀数值模对工程设计和优化具有重要指导意义。波浪数值模型SWAN和泥沙输运模型XBeach在学术研究中广泛应用。由于模型缺少用
近年来,互联网领域呈现爆炸式的发展,每天都有成千上万的网页数据在不断更新,在每个网页文本中通常蕴藏着数以百计的知识等待着人们去发现挖掘。为了能够有效地将这些信息利用起来,国内外科研人员对此做了大量研究工作。其中,知识图谱构建就是其中最重要和热门的研究方向之一。本文就如何实现完备的医疗知识图谱以及基于该医疗知识图谱实现医疗知识问答等工作展开了分析和研究。本文的主要创新和改进有以下几点:(1)本文发现
本文提出了一种基于解剖学先验知识和计算机视觉方法的综合框架,用于自动定位和分割胎儿脑部超声图像中的“胼胝体和透明隔腔复合体(CC&CSP)”和“小脑蚓部(CV)”。该框架旨在获得胎儿脑部正中矢状面的CC&CSP和CV的面积和位置信息,以协助医生进行产前检查。目前还没有专门解决这个问题的研究,这项研究对人类胚胎的产前诊断有重要的临床意义。本文提出的框架实施如下:首先,从胎儿脑部正中矢状面上手工切割出
近年来,知识图谱在越来越多的领域上得以应用,而知识图谱的构建与完善需要多源知识的融入。不同的知识源对知识的定义有着各自的标准,因此在多源知识融合过程中,存在知识近似冗余或者知识冲突的问题。为消除这种矛盾和歧义,本文设计并完成了基于主动学习的知识融合系统。知识融合需要解决模式层融合和数据层融合两个问题。模式层定义了知识图谱的顶层结构,是图谱的元数据。因为这部分数据规模可控且非常重要,因此使用人工的方
通过时空众包,任务请求者将时空众包任务(与位置和时间相关的众包任务)提交给众包平台,众包服务器将任务分配给一组工作人员,工作人员将通过实际前往任务地点来执行任务。但是,当前的任务分配方案要求工作人员和任务请求者将他们的位置和任务的任务披露给不受信任的时空众包服务器,以有效地将任务分配给工作人员。但是这种信息披露或多或少会导致用户的隐私泄露。人们对于隐私泄露的担忧可能导致他们不愿参与到时空众包中。基
边缘计算作为一种缓解资源拥塞的策略,逐渐发展为满足物联网和本地计算需求的新范式。与传统云计算相比,边缘计算将大量的数据计算或存储迁移到网络边缘,可有效减少边缘或云服务器与用户间的传输延迟,避免网络中的流量高峰。但是,端边云设备自身的安全保障仍然是一个不可忽视的问题,端边设备大多是资源受限的设备,缺乏像云计算设备一样的保护措施,导致端边设备的防御性能更弱、被恶意设备攻击的可能性更高,其分布式特点使得
时间序列数据是指具有时序特征的特殊数据对象。一组序列是根据特定的时间间隔,进行一系列采样得到的数据。时间序列数据来源广泛,还具有数据量大、数据维度高、数据结构复杂等特点,这类数据与其他数据相比研究难度更大,也面临着更多的挑战。传统的时间序列特征提取方法通常需要人为设计特征,效率不高且有可能使特征丢失。近年来,基于深度学习的特征提取取得了优秀的成果,通过模型训练能够有效的提取特征,进而实现时间序列的