随机森林算法改进及其在医疗诊断系统中的应用

来源 :南京邮电大学 | 被引量 : 13次 | 上传用户:wang840911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息化技术的发展,各大医院逐步建立起完备的电子信息系统,为医疗诊断与大数据挖掘技术相融合提供了充分的数据支持。其中随机森林算法因其分类准确率高的优点成为运用最广泛的挖掘算法之一。然而,医学数据因其极不平衡且特征维度高的特点,使得传统随机森林算法在医疗领域的分类性能被严重削弱,同时随机森林本身需要构建多棵决策树,导致运算时间较长。针对上述问题,本文深入的分析和研究了随机森林算法在医疗诊断领域的应用,提出了几点针对性的算法改进,最后设计并实现了一套针对败血症的医疗辅助诊断系统,主要工作如下:首先,针对医疗数据极不平衡且特征维度高的特点,提出了一种基于特征约简的随机森林改进算法RW_RF(Relief F&Wrapper Random Forest)。使用改进的Relief F算法将特征按分类能力进行区分,在随机森林构建过程中,分层抽取特征并递归地训练决策树,直到子树分类性能达到最佳。实验证明,RW_RF算法比传统随机森林算法有更好的分类精度,在不平衡数据中也有很好的表现。其次,为减轻算法的时间复杂度,提出了一种基于Spark的改进随机森林算法,对RW_RF算法的两处进行并行化设计,一是特征权值并行化计算,二是随机森林并行化构建。实验证明,并行化后的算法具有更好的运算效率、扩展性和伸缩性。最后,基于改进的随机森林算法以及Spark平台,构建一个败血症辅助诊断系统。系统包括数据处理、分类规则获取、模型评估、疾病预测几个阶段,并利用和鲸社区公开的败血症数据集证明了系统的有效性和可行性。
其他文献
电视专题片是电视新闻表现形式的延伸,既要保持真实客观的原则,还要保证节目触动人心,因此具有极强的艺术感染力。随着社会的不断发展,电视专题片需做到与时俱进,不断创新,才
植物功能性状研究主要探讨植物生理生态特性与外界环境之间的相互关系问题,通过分析不同地理及气候条件下植物功能性状的响应差异,论述植物对环境变化的生长适应性,以及在营
高光谱分类是指从远处充分利用地物反射的密集的光谱信息,对地物进行判别归类的一种遥感技术,具有广泛的应用前景。高光谱图像具有光谱维度高、样本数据少的特点,易产生同类地物光谱变异和同谱异物等现象,这些给分类问题带来极大的挑战。传统的分类模型基于“相似的光谱具有相同的类别”这一假设。通常情况下,没有一个单一的分类器是万能的,同样的高光谱数据在不同的分类器模型下会产生不同的分类结果。对于神经网络的学习方法
克劳斯硫回收项目因设计缺陷、单级克劳斯反应能力不足、工艺条件不达标,导致后系统设备及管道滞硫堵塞,装置运行存在安全隐患,环保指标不达标。对硫回收工艺进行技术改造,增
困境家庭儿童作为儿童群体中一个特殊的群体,其身心健康发展引起了社会广泛关注。由于多数困境家庭中存在家庭结构的变迁,社会支持的不足,可利用资源的匮乏等问题,难以为子女
近年来,中国金融市场逐步开放,改革程度不断加深。伴随着国有银行股份制改革及股份制商业银行准入制度的放宽、再加之城市商业银行的崛起,银行业的竞争大大加剧。与此同时,外
100年社会主义建设史上有五个环节:第一个环节,1917年十月革命胜利及实践社会主义;第二个环节,联共(布)领导进行社会主义建设并形成苏联社会主义模式;第三个环节,中国共产党
由于高填方渠道的截面形式(填高H、坡比i)对填筑体与地基层的附加应力具有较大影响;借助ANSYS有限元,建立截面形式可变的计算模型,发现高填方渠道填筑体中心线上各土层真实的
“电视体育”单纯从字面上解读就是电视化了的体育,亦即由体育电视制作人将体育及其文化信息等内容经刻意甄选、放大、剪裁、重组和“超文本”链接等,以营造出一种紧张的、刺
当前,我国高等教育领域正大力推行“双一流”建设。“双一流”建设明确以“立德树人”为根本,以人才的培养为出发点和落脚点,旨在提高高等学校的人才培养质量,提升我国高等教