基于深度学习在医疗领域的中文命名实体识别

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:suals
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现信息时代,各领域记录着大量文本信息,医疗领域中,具有大量的电子文本病历,药物说明,医生撰写的疾病记录等非结构化文本数据,但这些都是未结构化的自然语言,并不能通过众多杂乱的自然语言进行挖掘分析形成知识、经验,对后续挖掘分析任务来说,高效率高准确率抽取数据极为重要。人工手动进行抽取费时费力且成本巨大,每个人认知及标准不一样会导致结果差异性化;采用规则抽取泛化性和鲁棒性差,中文博大精深存在众多一词多义、歧义现象;而现有技术需要大量的标注数据,也不能很好对医疗领域中大量不常用词汇的专业术语进行文本表示。针对以上现存的局限性与技术难题,本文基于上述背景下,主要开展如下的研究工作:首先,对主流抽取文本算法进行查阅、学习及研究,理解基于传统字典库抽取、基于统计学算法抽取、基于神经网络的深度学习方法的优劣性,结合上述医疗领域中存在的实际问题对命名实体识别模型架构上进行设计和优化。其次,面对医疗行业的特殊性,需要专业性高的数据集,找到医疗领域公开数据集CCKS2017后觉得并不能证明在实际医疗领域应用环境中也确实有效,于是开发爬虫脚本在权威网站上批量自动下载药品说明书文本,并进行清洗及预处理,对哈工大开源标注工具进行二次开发好后进行少量人工标注,得到医疗领域非结构化数据作为数据集。再次,对数据集进行探索性数据分析(Exploratory Data Analysis,EDA),对药品说明书数据集特征进行分析后,添加介词、分割词等标签,利用标注技巧解决大量长句子实体问题。最后,结合医疗领域的实际情况,提出了一种针对医疗行业抽取实体的模型结构,利用迁移学习的方法,对大量数据无监督训练出的BERT参数模型上,把具有标签的医疗专有名词库数据进行预训练,得到具有更高质量的文本表征,由于这embedding是预测出来的,能解决中文的一词多义现象,再结合深度学习模型BiGRU在CCKS2017和少量标注的药品说明书数据集上进行验证,并设计5个其他深度学习模型作为对比。进过实验分析,结果表明,本文提出的模型在F1-Score评估指标上都取得了最佳效果。综上所述,在医疗领域的文本抽取任务中,本文利用迁移学习通过预训练得到更高质量文本表示并构建深度学习模型,提升了抽取医疗实体的准确度。
其他文献
铜锌超氧化物歧化酶(CSD)是植物响应逆境胁迫过程中的关键酶,其含量和活性与植物抗逆性密切相关。CSD基因已在多种植物中完成了克隆与功能鉴定,而关于结缕草CSD基因的报道很
目的:通过观察2型糖尿病(T2DM)患者中医辨证分型与胱抑素C水平、糖脂代谢指标及慢性并发症的相关性,探讨胱抑素C能否作为T2DM常见证型分型的特异性指标,为糖尿病中医辨证分型的客观化提供参考依据,为中西医结合防治糖尿病慢性并发症的发生发展方面提供一定的指导意义。方法:选取2018.01-2019.01就诊于成都中医药大学附属医院内分泌科符合2型糖尿病的住院患者306例,入选患者均符合1999年W
挠曲电效应描述的是应变梯度诱导介质电极化以及电场梯度诱导介质变形的现象。不同于传统的压电效应,该效应作为一种新型的力电耦合效应,具有不受介电材料的结构对称性和居里
当前全球正处于一个大变革的前夜:纳米技术,可替代能源,生物科技和基因工程,新材料,人工智能和万物互联等领域正在急速发展,即将实现群体性突破和产业化发展。如何通过“科学
21世纪创新引领发展,创新效率的提升是推动供给侧结构性改革的重要内容。本文基于区域创新的视角,在实证的前半部分,首先构建了测度2007-2016年省域创新效率的DEA、SFA以及Bo
步态是人体运动时双足随时间交替变化而具周期性的有序动作,具有丰富的人体运动行为特征信息。心电信号是人体心脏活动所产生的生物电信号,是反映人体健康生理状态的一种重要
目的:观察与探究六味地黄丸配合"八段锦"锻炼对妇女围绝经期症状的效用。方法:选取2016年04月~2018年04月期间于本院就诊及治疗的60例存在围绝经期症状的患者作为研究对象,按
随着我国经济进入新常态,保险行业的竞争日趋激烈。面对日益复杂的外部环境,越来越多保险企业选择通过优化和完善绩效考核的方式来增强其核心竞争力,而其中构筑一套成熟的绩
急性肺栓塞是一种由内源性或者外源性栓子堵塞肺动脉主干,或者肺动脉分支引起的肺循环功能障碍的临床综合症,发病率仅次于高血压等疾病,死亡率高居第三位,因其高发病率和高风
甲骨文是目前中国发现的最早的成系统的文字,是四大文明古国中唯一流传不绝且影响至今的文字系统,也是中国文字的鼻祖。2017年10月30日甲骨文入选“世界记忆名录”,标志着甲