论文部分内容阅读
医学命名实体识别在生物医学研究中起着重要作用,近年来围绕医学命名实体识别有大量的研究工作,目前的研究中存在3个问题需要解决。识别精度不够高,新的医学实体数量在快速增加,传统识别方法的精度不够高。计算效率较低,基于深度学习的识别方法在结构上无法实现高效的计算。多类别医学实体识别问题,欠缺识别多类别医学领域命名实体的方法。针对提高医学命名实体识别的精度的问题,提出基于语义的深度学习方法。提出基于字符的BiLSTM-CRF(CBLC)方法,通过字符级别的词嵌入方法捕获单词的内部结构信息。提出语义BiLSTM-CRF(SBLC)方法,使用大量包含语义信息的医学资源训练词嵌入,结合BiLSTM-CRF获取语义结构的上下文和标签之间的关系,结合Ab3P更有效识别缩写。结果表明,CBLC优于广泛使用的条件随机场和词典匹配等基线方法,SBLC方法优于DNorm和TaggerOne在内的先进方法。在语义的基础上,为了解决罕见医学实体识别以及实体标记不一致的问题,首先设计了一种基于Trie树的医学词典查找方法,然后提出两种融合词典注意力的深度学习方法。提出Dic-Att-BiLSTM-CRF(DABLC)方法,将词典匹配和文档级注意力机制结合到BiLSTM-CRF中,通过权重组合方式把词典和注意力方法进行组合。提出Dic-Att-BiGRU-CRF(DABGC)方法,使用词典匹配医学词典,同时结合双向GRU网络对词嵌入进行训练,输出包含上下文信息的隐状态,通过多头注意力机制解析词之间的结构。DABLC和DABGC方法可以有效地利用外部词典资源,解决罕见和复杂医学实体识别问题,进一步提升了深度学习方法的精度。为了提升深度学习方法的计算效率的问题,提出两种加速深度学习方法。提出Att-SGRU-CRF(ASC)方法,使用切片GRU网络,通过分组和分层的计算结构,有效提升方法的训练速度。并通过注意力机制解决标注不一致的问题,最后结合CRF计算出最优的标签序列。提出注意力迭代扩张卷积网络(AIDC),结合迭代扩张卷积网络(IDC)和多头注意力方法。AIDC将词嵌入输入到迭代扩张卷积网络中进行加速训练,结合多头注意力机制和条件随机场模型,计算出最终的输出标签。与现有的循环神经网络相比。ASC方法在速度上可以获取50倍以上的加速效果,同时获得较高的F1分数。AIDC 比BiLSTM快1.9倍,同时可以保持较高的识别精度。有效提升了深度学习方法的计算效率。为了解决多类别医学实体识别问题,提出基于文本分类和加权投票的方法Text Classification Weighted Voting(TCWV)。TCWV结合带秩约束的线性文本分类模型,通过较少量的训练文本,高效地对更大规模的文本进行分类。针对不同的命名实体类别,使用不同类别的医学文本作为词嵌入训练的输入。设计了权重投票算法,集成多个深度学习的模型。在疾病,化学和基因数据集上,TCWV均获得了最高F1分数,较好地实现了多类别医学命名实体识别。实验结果表明,本文提出的方法较好解决了当前面向医学NER领域,基于深度学习的方法存在的识别精度不够高,计算效率较低,多类别医学实体识别的问题。对促进医学信息学研究具有一定的积极作用。