面向医学命名实体识别的深度学习方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:huaxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学命名实体识别在生物医学研究中起着重要作用,近年来围绕医学命名实体识别有大量的研究工作,目前的研究中存在3个问题需要解决。识别精度不够高,新的医学实体数量在快速增加,传统识别方法的精度不够高。计算效率较低,基于深度学习的识别方法在结构上无法实现高效的计算。多类别医学实体识别问题,欠缺识别多类别医学领域命名实体的方法。针对提高医学命名实体识别的精度的问题,提出基于语义的深度学习方法。提出基于字符的BiLSTM-CRF(CBLC)方法,通过字符级别的词嵌入方法捕获单词的内部结构信息。提出语义BiLSTM-CRF(SBLC)方法,使用大量包含语义信息的医学资源训练词嵌入,结合BiLSTM-CRF获取语义结构的上下文和标签之间的关系,结合Ab3P更有效识别缩写。结果表明,CBLC优于广泛使用的条件随机场和词典匹配等基线方法,SBLC方法优于DNorm和TaggerOne在内的先进方法。在语义的基础上,为了解决罕见医学实体识别以及实体标记不一致的问题,首先设计了一种基于Trie树的医学词典查找方法,然后提出两种融合词典注意力的深度学习方法。提出Dic-Att-BiLSTM-CRF(DABLC)方法,将词典匹配和文档级注意力机制结合到BiLSTM-CRF中,通过权重组合方式把词典和注意力方法进行组合。提出Dic-Att-BiGRU-CRF(DABGC)方法,使用词典匹配医学词典,同时结合双向GRU网络对词嵌入进行训练,输出包含上下文信息的隐状态,通过多头注意力机制解析词之间的结构。DABLC和DABGC方法可以有效地利用外部词典资源,解决罕见和复杂医学实体识别问题,进一步提升了深度学习方法的精度。为了提升深度学习方法的计算效率的问题,提出两种加速深度学习方法。提出Att-SGRU-CRF(ASC)方法,使用切片GRU网络,通过分组和分层的计算结构,有效提升方法的训练速度。并通过注意力机制解决标注不一致的问题,最后结合CRF计算出最优的标签序列。提出注意力迭代扩张卷积网络(AIDC),结合迭代扩张卷积网络(IDC)和多头注意力方法。AIDC将词嵌入输入到迭代扩张卷积网络中进行加速训练,结合多头注意力机制和条件随机场模型,计算出最终的输出标签。与现有的循环神经网络相比。ASC方法在速度上可以获取50倍以上的加速效果,同时获得较高的F1分数。AIDC 比BiLSTM快1.9倍,同时可以保持较高的识别精度。有效提升了深度学习方法的计算效率。为了解决多类别医学实体识别问题,提出基于文本分类和加权投票的方法Text Classification Weighted Voting(TCWV)。TCWV结合带秩约束的线性文本分类模型,通过较少量的训练文本,高效地对更大规模的文本进行分类。针对不同的命名实体类别,使用不同类别的医学文本作为词嵌入训练的输入。设计了权重投票算法,集成多个深度学习的模型。在疾病,化学和基因数据集上,TCWV均获得了最高F1分数,较好地实现了多类别医学命名实体识别。实验结果表明,本文提出的方法较好解决了当前面向医学NER领域,基于深度学习的方法存在的识别精度不够高,计算效率较低,多类别医学实体识别的问题。对促进医学信息学研究具有一定的积极作用。
其他文献
近年来,随着中国史学研究的新进展,区域史越来越受到史学界重视,当代史学家热衷于将中国历史从空间上分解为更为细小的研究单位,对单位内的地理、经济、社会、政治、文化等诸多要
钢管混凝土结构的节点计算方法与构造措施是其结构设计中的重要问题之一.本文拟在总结国内外现有理论研究和工程实践所取得成果的基础上,简要介绍钢管混凝土柱与钢梁和钢筋混
一、概述苏联是世界上幅员最大的国家,面积 2240.2万平方公里,其中欧洲部分约占25%,亚洲部分约占75%。同时又是一个多民族国家(119个民族),由15个加盟共和国组成。现有人口2.71
热休克蛋白 70 (HSP70 )是一组重要应激蛋白。在肿瘤细胞中表达异常 ,能与癌基因、抑癌基因产物结合 ,并与肿瘤细胞的细胞周期调控、增殖、凋亡、分化、多药耐药、肿瘤免疫以
食管癌为常见胸部恶性肿瘤,且多发于老年人,其主要治疗手段为手术治疗.因老年人机体内环境稳定发生变化,抗病能力下降,各器官的储备功能均明显下降.因此,多年来老年开胸病人
本文给出了两个级数求和的复数方法,并应用此级数的和解决了一个比较难求解的级数的和的问题。
本文以云南大学2003年民族村寨调查的资料为依据,对中国少数民族地区近五十年来的生态变迁作了勾勒,提出只有解决好以下三个深层次的理论认识问题:正确认识人与自然的关系;单
会议
在社会经济体制改革不断深入的背景趋势下,各企业之间的竞争也愈演愈烈。近年来我国各种工程建设项目逐渐增多,为了提高企业的竞争力,如何在保障工程项目质量的基础上,尽可能
简要介绍了课题组在钢管混凝土结构领域取得的研究成果,内容包括:(1)一次加载下的静力性能;(2)长期荷载作用的影响;(3)滞回性能;(4)耐火极限;(5)火灾后的性能;(6)钢管初应力
在建立云南林业产业发展规模影响因素指标体系的基础上,以ISM技术为依据,分析了影响云南林业产业发展规模主要因素的重要程度,对于主要影响因素与产业发展规模之间的关系进行