医院信息数据挖掘及实现技术的探索

被引量 : 0次 | 上传用户:huangy3874308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探索基于SPSS Clementine的在线医院数据挖掘技术的实现,达到节约资源、共享资源的目的。在此基础上,探讨数据挖掘技术在因素预测、疾病判别诊断、疾病关联分析中的应用,结合实例研究重庆市结核病流行过程及发展趋势、乳腺癌腋窝高位淋巴结转移的危险因素及判别分类模型和糖尿病与并发症的关联知识发掘。为临床管理人员、医务人员、科研工作者进行科学管理、提高诊疗水平以及开展医学研究提供辅助决策与综合分析的工具。当前信息领域内普遍存在的“知识发现”问题迫切需要研究和解决,就方法学而言,科学地选择适当的数据挖掘算法是获得准确知识规则的关键;而在线医院数据挖掘技术的实现对提高医院管理水平和医疗质量具有重要的应用价值。随着计算机技术、生物医学工程研究的飞速发展,计算机信息技术在医学领域广泛应用,使得大量医学信息被精确记录下来,积累了大量的数据资源,激增的数据背后隐藏着许多重要的有用信息。从这些大量的数据资源中挖掘深层次的、隐含的、有价值的知识显得越来越重要。到目前为止,在国内,数据挖掘技术在医疗服务领域的研究有所报道,但未见其在线分析系统的研究应用;针对不同目标的实际应用,科学地选择适当的数据挖掘算法的方法学研究尚属先例。本研究采用Java网络编程语言,实现基于SPSS Clementine的在线医院数据挖掘的技术。利用来源于重庆市三所医疗机构(重庆市结核病防治所、重庆医科大学附属第一医院、附属第二医院)的医院数据,包括结核病、乳腺癌和糖尿病的资料。分别采用ARIMA模型、BP神经网络模型、GM(1,1)模型对结核病发病率进行预测分析比较;采用Logistic模型、CHAID模型、RBFN模型、RBFN-Logistic混合模型、RBFN-CHAID混合模型对乳腺癌腋窝高位淋巴结转移判别分类比较;采用Apriori关联分析模型对糖尿病与并发症的关联强度进行描述。主要研究内容:①采用Java网络编程语言,对在线数据挖掘技术的实现进行探索。②分析重庆市结核病流行过程,乳腺癌腋窝高位淋巴结转移的危险因素以及糖尿病与并发症的关联。③采用ARIMA模型、BP神经网络模型、GM(1,1)模型对结核病发病率进行预测分析。④采用Logistic模型、CHAID模型、RBFN模型、RBFN-Logistic混合模型、RBFN-CHAID混合模型对乳腺癌腋窝高位淋巴结转移判别分类。⑤利用准确率(Accuracy)和可靠性(Reliability)指标评价模型的准确性和可靠性。研究结果表明:①初步整合了SPSS Clementine,实现了在线医院数据采集、执行引擎、分析结果处理和分析结果查询的流程处理。②结核病有明显的季节流行高峰,基本是每年一、三季度发病人数较少,二、四季度发病人数较多。一个结核病流行年各季度发病率与一年前的一个半结核病流行年各季度发病率有关系。对结核病发病率的预测必须考虑季节因素、周期性及随机因素的影响,才能做出准确的预测。③ARIMA模型、BPANN2模型和GM(1,1)模型比较,前两者对结核病发病率的预测的相对误差分别为0.05872和0.06999,GM(1,1)模型为0.01210,说明残差GM(1,1)模型对结核病具有较好的预测性能。④乳腺癌腋窝高位淋巴结转移与腋窝中低淋巴结状况、肿瘤大小有明显关系。⑤RBFN模型采用权值矩阵表达诊断知识,Logistic模型与RBFN-Logistic混合模型采用Logistic回归系数表达诊断知识,二者均不易被使用者解读;CHAID模型和RBFN-CHAID混合模型采用了自然语言以树型的方式表达,提高了结果的可理解性。⑥Logistic模型、CHAID模型、RBFN模型、RBFN-Logistic混合模型、RBFN-CHAID混合模型的平均预测准确率分别为83.34%、83.79%、85.61%、83.77%、79.74%,r ?1分别为0.0720、0.0625、0.0549、0.0766、0.0948。RBFN模型所获知识的可靠程度以及对测试集合测试的准确率明显优于其它算法。⑦CHAID模型提取的诊断规则描述简单易懂,应用方便,可判断各诊断指标对乳腺癌腋窝高位淋巴结转移诊断贡献的大小,从CHAID决策树型可见,中低淋巴结状况对乳腺癌腋窝高位淋巴结转移诊断起决定性作用,肿瘤大小则可作为诊断的重要指标。因此,CHAID模型是一种简便可行的计算机辅助诊断方法,可从病例自动提取诊断规则,具有较广泛的实用价值,可应用于其它疾病的诊断研究。⑧泌尿道感染、肾病、眼部病变、神经病变、高脂血症、高血压、心脏病、冠心病等与糖尿病具有明显并发倾向。结论:①在线医院数据挖掘技术是未来医院信息系统的重要组成部分,对提高医院管理水平和医疗质量,降低医院运营成本具有重要的应用价值。②明确了GM(1,1)模型是预测结核病发病率的最佳预测算法;乳腺癌腋窝高位淋巴结转移判别分类的最佳算法是RBFN模型,对判别分类准确率和可靠性排位紧随其后的CHAID模型也是极佳的选择,这是从使用者易理解性、判别分类准确率和可靠性角度综合之结果;Apriori关联分析模型作为医生的辅助工具,提示临床医生关注、研究泌尿道感染与糖尿病两者之间的真正关系。
其他文献
先进的城市交通流诱导是智能交通系统的一个重要内容,城市交通流诱导主要是从交通管理者和交通参与者两方面实现,其实现的前提是对实时道路交通状态的掌握和了解。传统的交通
自二十世纪六十年代以来,后现代主义作为当代西方最具影响力的文化思潮开始迅速流行,广泛地影响到哲学、社会学、美学、艺术、宗教等许多领域,也同样对教育界产生了巨大影响
探地雷达是探测地下结构和特性的一种地球物理勘探方法。由于它具有高效、快速、无损、抗干扰能力强等优点,已广泛的应用在工程中的各个领域,成为浅层勘探的有力工具。但是,目前
经过50多年的工业化进程,尤其是改革开放以来的近30年,我国的技术水平和产业结构水平已经有了很大的提高。“十一五”期间,为保持国民经济的持续增长,全面建设小康社会和走新
本文详细分析了目前智能家居控制系统的现状和目前所采取方案的优缺点,采用基于CAN总线的智能家居网关集中控制方案,该方案通过引入智能家居接口单元模块,有效的隔离被控对象的
进入21世纪的知识经济时代,关乎国家创新能力和核心竞争力的本科生科研能力的培养与发展成为了各国政府和高等教育界关注的一个焦点。世界各国的研究型大学的共同特征是在本科
财产权利作为物质财产的异化形态是财产的一种,在现代社会中具有重要意义,由于标的物的财产性,使得这些权利具有了交换价值,这也就为权利设质创造了基本的条件,加之权利设质的便捷
网络安全是信息安全领域一个非常重要的领域。随着计算机网络的广泛应用,网络安全的重要性也日渐突出,网络安全已经成为国家、国防及国民经济的重要组成部分。但是,综观近年
酒精性肝病(ALD)是全球最主要的肝病负担之一[1]。据WHO公布数据,超过40%的肝病相关死亡与饮酒有关。过去20年,发达地区ALD肝移植数量持续增加。尽管疾病负担重,但大多数ALD
文章阐述了 2 1世纪中医药人才的培养标准 (即高素质、高技术、高品牌、高声誉、高效率、高形象等“六高”标准 )及途径 ,指出了中医药教育要面向世界 ,培养中医药国际化人才