论文部分内容阅读
医疗信息化的飞速发展给医学数据分析带来了极大的挑战。尤其是蕴含丰富医学信息的病历数据,这些病历数据语法结构松散,医学用词不统一,这造成对病历数据的智能处理变得十分困难。潜在语义分析技术近几年在文本挖掘领域得到了广泛的研究与应用,它能挖掘出文本中包含的潜在语义,也能挖掘出每个单词背后的潜在语义,并且潜在语义分析技术并不需要得到句法结构就能达到优异的效果。与此同时,潜在语义分析技术还能够提供其他算法不能比拟的可解释性,这样的特点使得其非常适合处理病历数据,以辅助医师及相关研究人员的工作。本文详细分析了病历文本的特点,针对病历文本提出了一种改进的潜在语义模型,即基于BM25加权机制的潜在狄利克雷分配。随后在病历数据集上验证了其有效性,并且为其实现了分布式训练。在得出病历数据的改进语义模型之后,本文分析了语义的自动注解问题,提出了语义自动注解模型,利用其为病历数据集里的潜在话题作了总结;与此同时,本文研究了病历文本的自动总结问题,利用总结模型为每篇病历作了自动总结。本文研究了病历文本挖掘中的信息检索问题,将其划分为了三种问题并且分别建立了数学模型以适应不同的应用场景。首先是相关项生成问题,本文以语义关联度为评价标准,针对病情描述中的一些症状和诊疗经过,利用语义模型自动生成了与描述相关的诊疗项与药品项,并进行了详细的测试;其次是相似病历匹配问题,本文提出了一种直接利用语义模型去计算相似度的方法;最后的问题是特定查询问题,对于这样的短描述查询,查询文本的语义信息会相对较少,本文分析了这个问题,使用了一种融合语言模型和语义模型的方法来实现特定查询。最后,本文利用上述研究成果设计并建立了一套初步应用的医学病历数据服务系统,该系统提供了病历检索服务、病历总结服务以及病历语料库的语义总结服务。