基于深度学习在医疗领域的中文命名实体识别

来源 :广东工业大学 | 被引量 : 0次 | 上传用户：suals

【摘要】

：

现信息时代,各领域记录着大量文本信息,医疗领域中,具有大量的电子文本病历,药物说明,医生撰写的疾病记录等非结构化文本数据,但这些都是未结构化的自然语言,并不能通过众多

【作者】

：

罗俊宇

【出处】

：

广东工业大学

【发表日期】

：

2020年01期

【关键词】

：

命名实体识别文本表示预训练医疗领域实体标注医疗领域命名实体识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现信息时代,各领域记录着大量文本信息,医疗领域中,具有大量的电子文本病历,药物说明,医生撰写的疾病记录等非结构化文本数据,但这些都是未结构化的自然语言,并不能通过众多杂乱的自然语言进行挖掘分析形成知识、经验,对后续挖掘分析任务来说,高效率高准确率抽取数据极为重要。人工手动进行抽取费时费力且成本巨大,每个人认知及标准不一样会导致结果差异性化;采用规则抽取泛化性和鲁棒性差,中文博大精深存在众多一词多义、歧义现象;而现有技术需要大量的标注数据,也不能很好对医疗领域中大量不常用词汇的专业术语进行文本表示。针对以上现存的局限性与技术难题,本文基于上述背景下,主要开展如下的研究工作:首先,对主流抽取文本算法进行查阅、学习及研究,理解基于传统字典库抽取、基于统计学算法抽取、基于神经网络的深度学习方法的优劣性,结合上述医疗领域中存在的实际问题对命名实体识别模型架构上进行设计和优化。其次,面对医疗行业的特殊性,需要专业性高的数据集,找到医疗领域公开数据集CCKS2017后觉得并不能证明在实际医疗领域应用环境中也确实有效,于是开发爬虫脚本在权威网站上批量自动下载药品说明书文本,并进行清洗及预处理,对哈工大开源标注工具进行二次开发好后进行少量人工标注,得到医疗领域非结构化数据作为数据集。再次,对数据集进行探索性数据分析(Exploratory Data Analysis,EDA),对药品说明书数据集特征进行分析后,添加介词、分割词等标签,利用标注技巧解决大量长句子实体问题。最后,结合医疗领域的实际情况,提出了一种针对医疗行业抽取实体的模型结构,利用迁移学习的方法,对大量数据无监督训练出的BERT参数模型上,把具有标签的医疗专有名词库数据进行预训练,得到具有更高质量的文本表征,由于这embedding是预测出来的,能解决中文的一词多义现象,再结合深度学习模型BiGRU在CCKS2017和少量标注的药品说明书数据集上进行验证,并设计5个其他深度学习模型作为对比。进过实验分析,结果表明,本文提出的模型在F1-Score评估指标上都取得了最佳效果。综上所述,在医疗领域的文本抽取任务中,本文利用迁移学习通过预训练得到更高质量文本表示并构建深度学习模型,提升了抽取医疗实体的准确度。

其他文献

结缕草ZjCSD1和ZjCCS基因的克隆与功能初步研究

铜锌超氧化物歧化酶(CSD)是植物响应逆境胁迫过程中的关键酶,其含量和活性与植物抗逆性密切相关。CSD基因已在多种植物中完成了克隆与功能鉴定,而关于结缕草CSD基因的报道很

学位

结缕草CSDCCS非生物胁迫蛋白质相互作用

2型糖尿病中医辨证分型与胱抑素C及慢性并发症的相关性研究

目的:通过观察2型糖尿病(T2DM)患者中医辨证分型与胱抑素C水平、糖脂代谢指标及慢性并发症的相关性,探讨胱抑素C能否作为T2DM常见证型分型的特异性指标,为糖尿病中医辨证分型的客观化提供参考依据,为中西医结合防治糖尿病慢性并发症的发生发展方面提供一定的指导意义。方法:选取2018.01-2019.01就诊于成都中医药大学附属医院内分泌科符合2型糖尿病的住院患者306例,入选患者均符合1999年W

学位

2型糖尿病中医证型胱抑素C慢性并发症

功能梯度介电材料中的尺寸效应和挠曲电效应及其机理分析

挠曲电效应描述的是应变梯度诱导介质电极化以及电场梯度诱导介质变形的现象。不同于传统的压电效应,该效应作为一种新型的力电耦合效应,具有不受介电材料的结构对称性和居里

学位

功能梯度材料挠曲电效应应变梯度尺寸效应非线性

知识基础来源多维异质性对专利质量的影响

当前全球正处于一个大变革的前夜:纳米技术,可替代能源,生物科技和基因工程,新材料,人工智能和万物互联等领域正在急速发展,即将实现群体性突破和产业化发展。如何通过“科学

学位

合成生物科学技术知识专利质量LDA模型

基于Bootstrap-DEA与SFA模型的省域创新效率研究

21世纪创新引领发展,创新效率的提升是推动供给侧结构性改革的重要内容。本文基于区域创新的视角,在实证的前半部分,首先构建了测度2007-2016年省域创新效率的DEA、SFA以及Bo

学位

创新效率Bootstrap-DEASFAσ收敛

运动模式下人体步态与心电信号的关联性分析研究

步态是人体运动时双足随时间交替变化而具周期性的有序动作,具有丰富的人体运动行为特征信息。心电信号是人体心脏活动所产生的生物电信号,是反映人体健康生理状态的一种重要

学位

步态特征心电信号RR间隔核超限学习机回归模型关联性

联合六味地黄丸配“八段锦”锻炼对妇女围绝经期焦虑、抑郁症状的效用探析

目的:观察与探究六味地黄丸配合"八段锦"锻炼对妇女围绝经期症状的效用。方法:选取2016年04月～2018年04月期间于本院就诊及治疗的60例存在围绝经期症状的患者作为研究对象,按

会议

六味地黄丸"八段锦"锻炼妇女围绝经期焦虑、抑郁症状联合治疗效用

人保JN分公司电商部绩效考核评价体系的优化

随着我国经济进入新常态,保险行业的竞争日趋激烈。面对日益复杂的外部环境,越来越多保险企业选择通过优化和完善绩效考核的方式来增强其核心竞争力,而其中构筑一套成熟的绩

学位

保险公司绩效考核层次分析法KPI

基于深度学习的CTPA肺栓塞图像分割方法研究

急性肺栓塞是一种由内源性或者外源性栓子堵塞肺动脉主干,或者肺动脉分支引起的肺循环功能障碍的临床综合症,发病率仅次于高血压等疾病,死亡率高居第三位,因其高发病率和高风

学位

深度学习肺栓塞医学图像CTPAU-netMask RCNN

基于深度卷积神经网络的甲骨文字检测技术研究

甲骨文是目前中国发现的最早的成系统的文字,是四大文明古国中唯一流传不绝且影响至今的文字系统,也是中国文字的鼻祖。2017年10月30日甲骨文入选“世界记忆名录”,标志着甲

学位

甲骨文检测数据集

基于深度学习在医疗领域的中文命名实体识别

与本文相关的学术论文