论文部分内容阅读
传染性肝病是一类分布极为广泛的传染病,其传染性高且传播途径多样,对社会有巨大的影响。传染性肝病通常根据标志物指标进行诊断,但是当疾病处于非急性期时,标志物指标的不显著与不稳定为诊断带来很大困难。因此利用机器学习的方法,发掘大量特征与疾病之间隐含的联系,是传染性肝病诊断研究的主要方向之一。本研究以传染性肝病的诊断为主要研究对象,探讨诊断模型训练过程中的特征选择方法与分类模型的设计。本文首先使用改进的集成特征选择方法对数据进行特征选择,然后采用集成学习方法构建分类模型并进行集成剪枝,最后完成分布式传染性肝病的辅助诊断系统的设计与实现。本文具体工作如下:(1)提出一种新的集成特征选择方法CB-EFS。CB-EFS方法首先对多种特征选择器得到的特征子集进行聚类,得到更具差异性的子集来增强集成性能,接着对这些子集进行投票集成,选择排名较高的特征。该方法主要有两点创新:其一,针对进行聚类的特征子集较少,使用传统的基于漂移均值聚类方法时难以确定聚类中窗口半径从而无法得到最优的聚类结果的问题进行改进。首先多次使用不同窗口半径进行聚类得到多个簇心组,对得到的所有簇心再次聚类,得出簇心分布规律,从而选出簇心组中具有代表性且差异性较大者作为聚类结果,得到更优聚类表现。其二,对特征子集进行集成时,原始的波达投票方法虽可以很好的选出被大多数选择器认可的特征,但其简单的根据位次线性加权的方法会导致部分在少数子集中表现好的特征无法获得较高的最终排名,对此本文采用改进的非线性加权方法,使此类特征获得更高权重与更大的被选中概率,并且能更直观看出所有特征的重要性程度。实验结果表明,使用CB-EFS方法分类的准确度相比于使用其他特征选择方法平均提升0.998%,且具有较好的敏感性和稳定性。(2)集成分类模型通过集成多个基分类器来得到更好的分类性能,但是使用过多的分类器会降低集成模型的泛化能力和分类速度,并且会出现由于部分基分类器冗余而造成计算资源浪费的情况。因此,通过集成剪枝从集成中去除部分分类器可以提高集成性能、节省计算资源。本文对帕累托集成剪枝方法进行改进,提出三目标优化集成剪枝方法,在原有的最大化分类准确度和最小化集成规模两个优化目标的基础上,加入最大化基分类器差异度目标,以解决原方法存在的过拟合问题。同时,针对满足这三个目标的帕累托最优解稀少的情况,将算法求解方式进行优化。实验结果表明,使用该剪枝方法的集成分类模型准确度相比使用原方法平均提升0.67%,且模型过拟合程度明显降低。(3)在上述研究的基础上,完成基于Hadoop的分布式传染性肝病辅助诊断系统的设计与实现,实现对传染性肝病的智能诊断并对疾病的传播趋势等情况进行统计与可视化展示。