基于深度学习的电子病历中医疗知识抽取研究

来源 :杭州师范大学 | 被引量 : 4次 | 上传用户:nurgul2120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术在医学领域的应用,大量具有丰富医学知识的电子病历随之产生。其中隐含着患者的诊断与症状、用药情况及治疗方式之间的潜在联系。对这些隐含知识进行分析与挖掘可以为临床辅助决策提供帮助,还可以为后续建立结构化的医疗领域知识图谱提供基础支持。然而,由于电子病历为医务人员所撰写的非结构化自由本文,其表述复杂,包含了大量医疗领域专业词汇,且在一定程度上受撰写者书写习惯影响。所以,对电子病历中包含的医疗知识实现高效准确地抽取仍然面临着巨大的挑战。本文依托于自然语言处理与深度学习技术,对医疗知识抽取中的命名实体识别与医疗关系抽取任务进行了深入的研究与探讨,并提出了可用性强的实现方案,解决了现有方法存在的过于依赖人工操作、特征稀疏、方法适用性差、模型运行效率低等问题,并在抽取效果上取得了显著的提升。本文的主要工作主要分为以下三部分:(一)对于常见的分布式文本表示方法,本文通过实验对比选取了GloVe模型,并将维基百科与所使用的I2B2 2010英文电子病历文本共同作为词向量训练的语料库,最终构建得到了电子病历文本的单词向量。而且本文考虑到单词对文本信息表示稀疏的问题,将字母信息作为特征补充,构建了基于CNN的字母特征抽取模型,将输出状态与词向量拼接,共同作为命名实体识别与医疗关系抽取工作中模型的输入部分。(二)在医疗命名实体识别任务中,本文采用序列标注策略作为解决方案。考虑到CNN可实现局部特征提取的优势,本文将其用于词向量输入与模型分类的中间层,提出了基于词间特征卷积规则组合BiLSTM-CRF的命名实体识别模型,并通过实验与其他主流方法进行了比较,实验表明本文提出的模型取得了更好的结果,验证了其有效性。(三)在医疗关系抽取任务中,针对实体词为先验知识的特点,本文提出了一种基于注意力机制组合BiLSTM-CRF的医疗关系抽取模型,并通过实验验证了其表现效果,抽取能力远高于其他常用方法。此外,本文考虑到命名实体识别的误差在医疗关系抽取中会造成的错误结果传递的现象,提出了实体候选队列机制,将命名实体识别的多个候选项以队列形式加入医疗关系抽取任务中,并根据两项任务的综合表现完成分类与抽取。综上所述,本文在医疗知识抽取中的命名实体识别与医疗关系抽取任务取得了较之前研究更优的表现成果,为电子病历的医疗知识抽取工作做出了基础研究上的贡献。
其他文献
高考英语单项选择题含what的it-分裂句一直困扰着英语教学工作者。本文从it-分裂句的特征视角出发,以英国国家语料库(BNC)数据为例,通过对比含what的it-分裂句,分析了其特征
《蝴蝶夫人》是由意大利歌剧家普契尼创作的,他的作品通常是以日常生活中的现实题材为主。《蝴蝶夫人》这一作品是根据同名小说改编的,普契尼在其中加入了东方元素,从而在其
随着社会经济的不断发展,生活水平不断提高,人的自身修养和文化素质也随之提高,对精神文化的要求也越来越高。水域资源孕育了城市和城市文化,是城市开放空间的重要组成部分,
目的:以腺病毒-微管相关蛋白-2(Adenovirus-microtubule- associated protein-2,Ad-MAP-2)为载体,将MAP-2基因导入鼠恶性黑色素瘤B16C29、B16细胞系,研究MAP-2对恶性黑色素瘤
高职院校的人才培养模式必须紧跟当前时代发展的变化,尤其对高职会计专业来说,会计专业教师必须不断提升个人信息化教学能力,加强信息化教学模式的改革创新,完善信息化教学内
随着微电子技术的发展以及环保意识的增强,作为Pb/Sn焊料替代物的导电胶粘剂,已成为当前研究的热点和重点。介绍了导电胶粘剂的导电机理及其组成、功能和分类。重点概述了近
第一部分:一种前路兔腰椎间植骨融合模型的建立一、背景介绍自1911年Hibb S首次报道脊柱融合(Spinal fusion)手术100多年以来,该种手术方式已经发展成为脊柱外科一种重要的手
贝多芬的第九<合唱>交响曲和柴可夫斯基的第六<悲怆>交响曲是世界交响曲中登峰造极之作.文章力图从调性、曲式结构、主题旋律、创作背景等几个方面对这两部作品进行对比赏析,
职业诚信是指从业人员在工作岗位上遵循诚实守信的职业道德,诚实劳动、信守承诺、诚恳待人,善意行使权利和履行义务。职业诚信教育隶属于职业道德教育,是培养大学生诚实工作
电子政务是当前世界各国政府都在积极实施的一项战略措施,它对于提高政府工作效率、加强政府服务职能转变、实现“以人为本、执政为民”的行政理念,都有着重要意义。目前我国