基于潜在语义分析的病历文本挖掘应用研究

被引量 : 0次 | 上传用户:b188413920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗信息化的飞速发展给医学数据分析带来了极大的挑战。尤其是蕴含丰富医学信息的病历数据,这些病历数据语法结构松散,医学用词不统一,这造成对病历数据的智能处理变得十分困难。潜在语义分析技术近几年在文本挖掘领域得到了广泛的研究与应用,它能挖掘出文本中包含的潜在语义,也能挖掘出每个单词背后的潜在语义,并且潜在语义分析技术并不需要得到句法结构就能达到优异的效果。与此同时,潜在语义分析技术还能够提供其他算法不能比拟的可解释性,这样的特点使得其非常适合处理病历数据,以辅助医师及相关研究人员的工作。本文详细分析了病历文本的特点,针对病历文本提出了一种改进的潜在语义模型,即基于BM25加权机制的潜在狄利克雷分配。随后在病历数据集上验证了其有效性,并且为其实现了分布式训练。在得出病历数据的改进语义模型之后,本文分析了语义的自动注解问题,提出了语义自动注解模型,利用其为病历数据集里的潜在话题作了总结;与此同时,本文研究了病历文本的自动总结问题,利用总结模型为每篇病历作了自动总结。本文研究了病历文本挖掘中的信息检索问题,将其划分为了三种问题并且分别建立了数学模型以适应不同的应用场景。首先是相关项生成问题,本文以语义关联度为评价标准,针对病情描述中的一些症状和诊疗经过,利用语义模型自动生成了与描述相关的诊疗项与药品项,并进行了详细的测试;其次是相似病历匹配问题,本文提出了一种直接利用语义模型去计算相似度的方法;最后的问题是特定查询问题,对于这样的短描述查询,查询文本的语义信息会相对较少,本文分析了这个问题,使用了一种融合语言模型和语义模型的方法来实现特定查询。最后,本文利用上述研究成果设计并建立了一套初步应用的医学病历数据服务系统,该系统提供了病历检索服务、病历总结服务以及病历语料库的语义总结服务。
其他文献
传统奈奎斯特采样定理的本质属性消耗了大量的存储空间资源和频带资源,压缩感知(CS)理论的提出,把传统采样定理过程中的信号采样、数据压缩这两步融合成一步来进行,只需考虑信号本
在大数据时代,各行各业所产生的信息量和所需的传输带宽都在飞速增长。数字化处理时经典的奈奎斯特采样定理所规定的极限采样速率严重制约了人们对宽带数据的处理,它不仅给信息
作为一种方便、快捷的交通工具,汽车已成为人们生活和工作的重要组成部分。随着汽车数量的逐年增加,有限的城市空间显得日趋拥挤,车辆平均分配到的停放空间也日趋缩小,车辆泊车入
伴随无线通信技术的高速发展及无线通信业务需求的极速增长,可分配的无线频谱资源也变得越来越匮乏。认知无线电技术是解决频谱稀缺问题的最佳方案,它旨在不影响主用户通信的前
经济社会建设步伐的加快,为现代电力企业各项业务开展创造了有利的条件。对用电检查及电能计量提出了更高的要求,需要企业能够重视用电检查,保持良好的用电管理水平。实践过程中
对于大宗商品而言,国际定价话语权强弱即为在大宗商品的国际贸易中,一国能够对交易品种的最终价格所发挥的影响力大小,即一国可以在多大程度上决定该商品的交易价格。对一个
进入21世纪后,逐渐加大的升学竞争压力及不断增加的课外培训需求,影响并推动着课外培训产业发展,带动中小学课外辅导培训产业进入快速发展期。我国中小学课外辅导存在着巨大的市
随着教改的强烈推动,集宁一中也面临着校内、校外严峻的形势,曾经的塞外名校,万人中学,现在已然辉煌不在。教育的现状让我们清醒地认识到,我们需要全面推进课堂教学改革来打造高效
【正】 由于现代化大生产对管理的要求日益提高,近年来会计的职能得到了极大的发展。有效地、完全地实现会计管理的职能,改革传统的会计作业方法,充分运用电子计算机等现代科
压缩感知编解码理论是近几年刚提出的编码方法,它突破了奈奎斯特采样定律的约束。相比于传统的编解码理论,压缩感知理论的最大优势就是其编码过程极其简单,复杂度被转移到了解码