论文部分内容阅读
本课题是基于Hadoop平台的分布式医疗大数据挖掘算法和模型的研究,选取目前深受人们重视的心肺性职业病大数据,提取医院职业病科电子病历系统中的非结构化数据进行挖掘分析。本研究主要对该疾病进行模式分析,通过分析病患的标志性物及相关辅助指标,研究病例的各检验项之间,以及各检验项与疾病之间的客观规律,从而得出患者发病的影响因素,实现提前预防;之后还对心肺性职业病患者的一般性并发症进行了研究,以能够得到心肺病与不同病症之间的并发关系,能对相关病症的患者给予提醒,实现提前就医、精准治疗。主要内容如下:(1)收集临床电子病历系统中心肺性职业病患者的病历数据,对非结构化的文本医疗数据进行预处理,建立医疗文本数据的结构化模型,并为了保证研究结果的精准对结构化文本数据进一步进行结构类型的转换处理;(2)综合分析不同数据挖掘算法,根据心肺性职业病数据挖掘的不同目的,选取经典的关联规则Apriori算法并进行改进,加入兴趣度的限制,建立最优数据分析挖掘模型;(3)根据心肺性职业病体征与病历中的检验项、病人个人信息等医疗大数据信息,以临床信息为对象,从数据挖掘技术应用入手,研究心肺性职业病与各项指标的关系,分析疾病生理指标的分布特点,揭示指标与疾病之间、疾病与职业间存在的特定关系;(4)根据模型对心肺性职业病检验项的分布模式挖掘,通过对不同患者并发症的研究,挖掘出本病症与各个并发症的关系,依据病人具体情况定制个性化的治疗方案,实现对病患的精准治疗;(5)搭建Hadoop平台环境,将集中存储的数据信息导入分布式存储平台Hadoop中,实现基于Hadoop平台的数据挖掘和处理。