面向生物医学的文本分类与事件检测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:along_1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对健康医疗的重视,生物医学领域一直快速发展,生物医学电子文献作为最重要的资源之一备受关注,数据量又在成指数级增长,从海量信息中挖掘潜在知识信息,并将这些知识充分用于辅助医疗技术研究,对生物医学健康领域有重要意义。现存的数据大多为不规则零散的非结构化数据,如何高效地将大量非结构化数据转换成结构化数据,成为信息知识挖掘领域研究的重点内容。本文旨在利用文本分类技术和事件检测技术完成对生物医学领域的信息抽取,进而可以辅助医学,实现精准医疗。生物医学文本分类任务主要是从粗粒度角度挖掘生物医学文本信息,是自然语言处理任务的基本任务之一,是文本信息挖掘流程的第一步,能够有效协助医疗工作者从大量文献中快速获取有价值的信息。本文分别研究了英文长文本和中文短文本的分类任务。针对英文长文存在的长距离依赖等问题,提出HACN(hierarchical attention-based capsule network)模型。利用胶囊网络有效获取生物医学文本局部特征,提高了该任务的准确率,利用层级注意力机制准确获取长文本的全局特征,提高了该任务的召回率,将其两者有效结合提高了文本分类系统的整体性能。该模型方法在Bio Creative评测任务的三个相关语料集上进行了实验验证,实验结果均有很大的提升。针对中文短文本存在的信息量较少等问题,本文采用集成学习的方法进行分类。首先通过目标领域的数据集对BERT模型微调得到语义增强模型,再将其与深度学习的模型进行融合,集成得到最终的短文本分类器。该模型方法在第五届中国健康信息处理大会评测任务之临床试验医学标准短文本分类语料集上进行了实验验证,取得了该任务目前最高的F1值。对于生物医学领域的事件检测任务,属于细粒度生物医学文本信息抽取,目的是检测句子中的触发词,并将其分类为预定义的事件类型,这将有利于许多应用,如文本摘要和阅读理解等。针对触发词识别存在的长尾问题,本文提出采用BInd GAC(bidirectional independent GRU-Attention-CRF)模型,并结合BIO标签进行触发词识别,该任务中训练的词向量是融合了生物医学知识的语言模型Bio BERT得到的表示。该方法有效地挖掘了深层的文本信息,提高了触发词识别器的性能。该模型方法在MLEE数据集上进行了相关实验验证,验证了本文提出方法的有效性。
其他文献
合理的城市功能区规划是城市可持续发展的基础。城市功能区的准确识别是城市规划的重要内容,而当前城市功能区识别方法的相关研究,大多仅基于单源数据分析建模来进行功能区的划分与识别,无法充分利用易于获取的多尺度多来源的数据,为此本文提出了基于多模态机器学习的城市功能区域分类模型MM-Urban FAC,模型部分首先使用SE-Res Ne Xt与自定义结构的DPN结合的双分支神经网络,用来自动挖掘与融合多来
在传染性疾病预防当中,疫苗作为一种可以使机体产生抗体的预防性生物制剂,已成为对抗此类疾病的重要武器之一。疫苗组分中的佐剂具有抗原储存库效应,可辅助增强免疫反应。因此,成为疫苗研发过程中的一个关键步骤。在众多佐剂中,铝盐佐剂是最早获得FDA批准使用的产品之一。由于其安全性好,成本低等优点,被广泛使用。其中,氢氧化铝(Al OOH)纳米佐剂临床研究表明,其佐剂效应与其纳米颗粒形态、结晶度和表面羟基含量
生物医学作为一门前沿交叉学科,与人们的生命健康息息相关。近年来,随着生物医学领域的快速发展,生物医学文献数量也开始大幅度呈指数增长。隐藏在这些数据中的丰富信息,对生物医学领域的药物研发、疾病预防、数据库构建等都具有十分重要的意义。因此,通过文本挖掘技术处理和分析无结构化的生物医学文献,能够极大地推进该领域的研究发展。关系抽取作为文本挖掘技术的一个重要分支,能够自动地从非结构化文本中抽取信息。目前主
驾驶疲劳是导致重大道路交通事故的关键致因要素之一,相关工程技术研究人员已针对疲劳检测问题进行有较为广泛的研究,并取得了一系列研究成果。然而,由于不同驾驶人之间存在一定的个体特性差异,这为驾驶疲劳状态的准确、可靠检测带来了相当难度。为此,本文围绕驾驶人个体特性差异所导致的疲劳检测模型适应性不足问题,在对疲劳状态表征及检测机理深入解析的基础上,提出了一种基于深度网络的驾驶疲劳自适应检测方法,以有效解决
在目前的肠道疾病检查领域,传统的内窥镜检查因其高痛苦、高风险的特性已不能适应人们的需要。以非侵入式的胶囊机器人进入人体检查,正成为一种新型的检查方式。在实际的诊疗过程中,为了便于医生观察病灶,胶囊机器人的姿态反馈控制信息显得至关重要。现有的姿态感知方法多采用信号探测或传感器阵列测量的方式,这种方式极大地消耗了硬件资源并增加了成本,不利于胶囊机器人的推广使用。本文从胶囊机器人携带的相机入手,提出了一
疾病的诊断与控制、环境监测、药物开发和食品安全问题已成为当今世界广泛关注的问题。肆虐的新冠病毒感染人数达到一亿四千万,死亡高达三百万,日本政府宣布将开始向大海排放福岛核废水等等事件,对人们的生命健康和生产生活造成了严重的威胁和影响。当前迫切的需求推动着生物传感器不断发展,同时也对生物传感器提出了更高的要求。本文提出了一种基于超窄带包层模共振的高反射率FBG生物传感器。由于毫米波前向传播芯模和光纤光
无线胶囊内窥镜由于具有风险低,创伤小、方便快捷的优点已经得到广泛应用。随着无线内窥镜的发展,具有主动运动控制功能的胶囊机器人已成为临床医疗检查的发展趋势。目前已投入使用的无线胶囊内镜通常仅适用于对小肠病变的检查,对于能够在胃与结肠等宽裕环境内主动运动的胶囊机器人的研究仍然是个难点。本课题组研制的双半球形胶囊机器人采用三轴亥姆霍兹线圈作为驱动源,实现了旋转磁场强度与方向的任意调节,解决了姿态调整和位
在当前工程建设大发展的时代,水利水电、公共交通和能源矿业的建设及安全维护逐步进入日趋复杂,精准评估大型岩质边坡和地下岩体工程结构的稳定性是设计科学合理的支护体系、预防地质灾害和工程事故重要前提。天然岩体中节理裂隙发育,其变形、失稳很大程度上由岩石节理的变形、滑移和破坏控制,因此精准预测岩石节理的变形和破坏具有重大意义。当前理论模型的发展迅速,但是普遍面临样本单一,仅对实验样本具有较高的精度,缺乏可
小脑是人体神经中枢的重要组成部分,其在运动学习、平衡控制等方面发挥着举足轻重的作用。小脑的损伤会引起小脑性共济失调,对该疾病的治疗仍是临床上的一个难题。深入探究小脑的解剖学和生理学机理,建立具有生物可解释性的小脑计算模型,有助于改善我们对小脑运动控制机制的理解。现有的小脑计算模型主要集中在对完整小脑功能的描述,而并不关心模型是否与真实小脑的生物机制相一致,建立的模型过于抽象,难以建立网络层面的改变
风洞试验是研究汽车、飞行器等模型空气动力学的有效手段。在风洞试验中,模型姿态角的调整是通过其支撑装置的运动实现的,其控制精度直接影响试验结果的准确性。双转轴模型支撑装置能有效调整模型的迎角、侧滑角和滚转角,研发其控制系统对提高风洞试验的综合能力和试验效率有重要意义。本文完成了双转轴模型支撑装置控制系统的设计与实现。该系统通过各轴串联机构的运动实现模型迎角、侧滑角、滚转角的姿态控制。首先分析了双转轴