论文部分内容阅读
现信息时代,各领域记录着大量文本信息,医疗领域中,具有大量的电子文本病历,药物说明,医生撰写的疾病记录等非结构化文本数据,但这些都是未结构化的自然语言,并不能通过众多杂乱的自然语言进行挖掘分析形成知识、经验,对后续挖掘分析任务来说,高效率高准确率抽取数据极为重要。人工手动进行抽取费时费力且成本巨大,每个人认知及标准不一样会导致结果差异性化;采用规则抽取泛化性和鲁棒性差,中文博大精深存在众多一词多义、歧义现象;而现有技术需要大量的标注数据,也不能很好对医疗领域中大量不常用词汇的专业术语进行文本表示。针对以上现存的局限性与技术难题,本文基于上述背景下,主要开展如下的研究工作:首先,对主流抽取文本算法进行查阅、学习及研究,理解基于传统字典库抽取、基于统计学算法抽取、基于神经网络的深度学习方法的优劣性,结合上述医疗领域中存在的实际问题对命名实体识别模型架构上进行设计和优化。其次,面对医疗行业的特殊性,需要专业性高的数据集,找到医疗领域公开数据集CCKS2017后觉得并不能证明在实际医疗领域应用环境中也确实有效,于是开发爬虫脚本在权威网站上批量自动下载药品说明书文本,并进行清洗及预处理,对哈工大开源标注工具进行二次开发好后进行少量人工标注,得到医疗领域非结构化数据作为数据集。再次,对数据集进行探索性数据分析(Exploratory Data Analysis,EDA),对药品说明书数据集特征进行分析后,添加介词、分割词等标签,利用标注技巧解决大量长句子实体问题。最后,结合医疗领域的实际情况,提出了一种针对医疗行业抽取实体的模型结构,利用迁移学习的方法,对大量数据无监督训练出的BERT参数模型上,把具有标签的医疗专有名词库数据进行预训练,得到具有更高质量的文本表征,由于这embedding是预测出来的,能解决中文的一词多义现象,再结合深度学习模型BiGRU在CCKS2017和少量标注的药品说明书数据集上进行验证,并设计5个其他深度学习模型作为对比。进过实验分析,结果表明,本文提出的模型在F1-Score评估指标上都取得了最佳效果。综上所述,在医疗领域的文本抽取任务中,本文利用迁移学习通过预训练得到更高质量文本表示并构建深度学习模型,提升了抽取医疗实体的准确度。