融合预训练语言模型的医疗自动问答研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:bluebell228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和移动应用的快速发展,人们越来越习惯于在网络上获取信息。传统的医疗问诊需要人们去医院挂号进行诊断,随着网络技术的发展,越来越多的医院推出了在线问诊功能。人们渐渐习惯于去搜索引擎或者专门的问答网站,去搜索或提问相关症状,并从专业医生的回答中获得参考。但是专业医生资源有限,而绝大多数医疗问题集中在类如感冒发烧等常见疾病上,这些常见医疗问题已有的回答非常具有参考意义。如何通过分析已有的医疗问答数据来对患者提出的问题做出一个快速反馈以供参考是一个关键问题。预训练语言模型BERT的提出,刷新了自然语言处理领域许多任务的性能记录。然而,由于BERT是在海量语料的基础上学习到特征表示,在具体领域上的效果还可以进一步提升,因此尝试适应领域的继续预训练方法具有实际意义。本文针对上述问题,将预训练语言模型尝试应用在自动问答系统当中,利用领域语料对模型进行继续预训练,并提出扩充句向量表示的BERT-CBOW模型,以提高问答准确率。本文具体工作和创新点如下:(1)提出一种基于预训练语言模型的文本相似度计算方法,并以此实现检索式自动问答。利用医疗领域的问答语料对BERT模型进行继续预训练,进一步提高模型在领域问答中的准确度表现。(2)提出BERT-CBOW模型。BERT表示的句向量虽然可以在相似语句中获得比较高的相似度值,但是相似语句的匹配正确率还可以进一步提升。本文利用CBOW模型扩充了BERT的句向量表示使之成为一个新的句向量。实验结果表明,BERT-CBOW模型在本文的测试集中top-k精度相比基线模型和继续预训练后的模型均有所提高。(3)设计并开发了包含服务器、网页端和移动端的线上医疗自动问答应用系统,解决医疗领域的实际问答问题,为提问者提供相关的参考。本文在医疗领域的自动问答研究基础上,利用抓取的18万条医疗问答数据集构建了问答检索库,后端采用Django框架,网页利用Vue,移动端借助Java,分别实现了后台服务器,前端问答网页和安卓医疗问答APP的编写,并已上线运行。
其他文献
在当今科技迅猛发展的时代,智能制造技术所具有的先进性和复杂性更加体现在了现代工业生产过程中,市场竞争也更加激烈,这种复杂的市场环境给制造企业带来了巨大的挑战。科学合理的生产计划和排产调度,对于降低产品成本、提升企业经济效益会产生巨大的作用。因此,对于智能工业制造企业而言,优化车间调度方法是目前的一个研究热点。在智能工业产品零部件制造过程中,企业不仅要考虑到工件的冲压加工工序,为提高产品的强度和韧性
随着汽车保有量的不断增长,智能交通已经深入我们的日常生活,车牌检测作为智能交通中重要的组成部分同样得到了飞速的发展,为城市公共交通的规划与出行带来了极大的便利。由于汽车所处环境极其复杂,为车牌检测识别带来了很大的困难,通过分析大量车牌数据得出光照是影响车牌检测识别的主要因素。通过对车牌识别场景中的实际问题和车牌图像的数据特点的分析,本论文以卷积神经网络为基础框架,重点研究车牌识别过程中的低光照增强
随着互联网技术的日益普及和医学文献数量的快速增长,医学文献数据量呈现爆炸式增长,但大量医学文献数据大多以结构化方式存储,有着不易提取,人工标注成本高昂等特点。在医学文献中,文献摘要记录着重要信息,如何根据大量的医学文献摘要抽取重要的循证医学数据,并分析从而开发合成新的药物来治疗疾病变得愈发重要。医学文献命名实体识别,作为自然语言处理的基础和重要的任务,可以从非结构化的医学文献中抽取规范的实体,可以
随着当今社会信息化和智能化的迅速发展,利用计算机实现以人为中心的各类分析成为了可能。在人机交互、视频监控、医疗防护等应用场景中,准确的人体解析、姿态估计以及进一步的行为识别都是至关重要的。本文使用深度学习的方法,通过对现有的以人为中心的各类分析方法进行研究,寻找其中的不足之处,提出了相应的改进方法。本文的主要研究内容如下:(1)提出了一种用于人体解析的类别感知网络。针对现有人体解析模型的提取特征方
命名实体识别(NER,Named Entity Recognition)是自然语言处理的热点方向之一,目的是识别文本中的命名实体,并将其归纳到不同的实体类型中。命名实体识别是自然语言处理的基础任务,其结果能有效应用于信息抽取、问答系统、文本分类等各项后续任务。命名实体识别的准确度将直接影响自然语言处理中后续工作的表现。随着深度学习的发展,基于长短期记忆网络(LSTM,Long Short-term
作为基础工程的建筑工程建设,在社会经济发展水平中占有至关重要的地位。但是在传统的工程管理模式下,成本控制不是各参与方最关心的问题,而施工方在竣工结算时又想将工程经济效益最大化。因为从设计阶段开始就没有一套规范的项目成本控制流程,施工过程中工程变更屡见不鲜,工程索赔更是常有发生,工程窝工、大规模的赶工期也经常发生,这些现状在传统工程管理模式下会造成工程资源的大量浪费,包括人力、物力、财力。而BIM5
当前随着区块链技术的迅猛发展,区块链机器共识的可靠性日益受到全球各个国家和企业的广泛重视和应用。在中国,区块链技术已经被中央政治局提升到“核心技术自主创新的重要突破口”,以及被国家部委加入“新基建信息技术基础设施”的国家战略高度。很明显区块链技术的重要性越发突出,未来可能会被广泛应用于各行各业。国内很多科技企业都积极关注和发展区块链技术,致力于能在区块链领域有所创新,致力于更深度的区块链落地应用,
信息技术的发展带动了数字医疗的高速发展。数字医疗作为新颖的、现代化程度高的信息化医疗方式,改变了医疗数据的存储与共享方式,极大地促进了医疗发展。在医疗系统实施信息化建设的过程中,如果直接把重要的敏感医疗数据放在云服务器上,当服务器遇到不法分子攻击时,一些重要的数据极有可能被泄露。进而产生隐私信息被非法售卖等一系列的连锁问题。区块链技术具有分布式共享全局账本,公开透明,去中心社区化等优势,能够很好的
随着我国高速铁路的迅速发展,高速列车长期处于高速、重载与高密度的运行条件下,使得钢轨表面的磨损日益严重,可能会引发严重的安全事故,因此钢轨廓形的检测分析及其磨耗测量逐渐成为了铁路工务部门非常重要的检测任务之一。基于结构光的测量技术是如今视觉测量领域的研究重点和热点,已经广泛地应用于工业测量的各个领域,因此基于结构光的钢轨磨耗测量方法已经成为铁路基础设施安全检测中的热点课题之一。本文着眼于如何在动态
文本情感分析是自然语言处理领域的一个重要任务,它是一种以提炼文本情感内容为目的的文本分类。根据分析粒度的不同,文本情感分析可以分为对整篇文章的情感分析、对某段话的情感分析和对某段话中各个方面的情感分析,其中,对某段话中各个方面进行情感分析是一种细粒度的情感分析。目前,针对整篇文章或整个句子进行情感分析的研究技术已经比较成熟,并取得了较好的效果。但是,对文本进行整体情感分析会掩盖文本中不同方面的不同