论文部分内容阅读
随着互联网技术在医学领域的应用,大量具有丰富医学知识的电子病历随之产生。其中隐含着患者的诊断与症状、用药情况及治疗方式之间的潜在联系。对这些隐含知识进行分析与挖掘可以为临床辅助决策提供帮助,还可以为后续建立结构化的医疗领域知识图谱提供基础支持。然而,由于电子病历为医务人员所撰写的非结构化自由本文,其表述复杂,包含了大量医疗领域专业词汇,且在一定程度上受撰写者书写习惯影响。所以,对电子病历中包含的医疗知识实现高效准确地抽取仍然面临着巨大的挑战。本文依托于自然语言处理与深度学习技术,对医疗知识抽取中的命名实体识别与医疗关系抽取任务进行了深入的研究与探讨,并提出了可用性强的实现方案,解决了现有方法存在的过于依赖人工操作、特征稀疏、方法适用性差、模型运行效率低等问题,并在抽取效果上取得了显著的提升。本文的主要工作主要分为以下三部分:(一)对于常见的分布式文本表示方法,本文通过实验对比选取了GloVe模型,并将维基百科与所使用的I2B2 2010英文电子病历文本共同作为词向量训练的语料库,最终构建得到了电子病历文本的单词向量。而且本文考虑到单词对文本信息表示稀疏的问题,将字母信息作为特征补充,构建了基于CNN的字母特征抽取模型,将输出状态与词向量拼接,共同作为命名实体识别与医疗关系抽取工作中模型的输入部分。(二)在医疗命名实体识别任务中,本文采用序列标注策略作为解决方案。考虑到CNN可实现局部特征提取的优势,本文将其用于词向量输入与模型分类的中间层,提出了基于词间特征卷积规则组合BiLSTM-CRF的命名实体识别模型,并通过实验与其他主流方法进行了比较,实验表明本文提出的模型取得了更好的结果,验证了其有效性。(三)在医疗关系抽取任务中,针对实体词为先验知识的特点,本文提出了一种基于注意力机制组合BiLSTM-CRF的医疗关系抽取模型,并通过实验验证了其表现效果,抽取能力远高于其他常用方法。此外,本文考虑到命名实体识别的误差在医疗关系抽取中会造成的错误结果传递的现象,提出了实体候选队列机制,将命名实体识别的多个候选项以队列形式加入医疗关系抽取任务中,并根据两项任务的综合表现完成分类与抽取。综上所述,本文在医疗知识抽取中的命名实体识别与医疗关系抽取任务取得了较之前研究更优的表现成果,为电子病历的医疗知识抽取工作做出了基础研究上的贡献。