论文部分内容阅读
在各个领域中不均衡数据问题都广泛的存在,如医疗领域、故障诊断领域以及欺诈检测领域等。因此对不均衡数据进行研究且找到有效的分类算法具有重大的科学意义和应用价值。然而较为经典的分类算法当它们应用到故障领域时,它们的分类性能都不是很理想。此外,在故障诊断领域,因为支持向量机具有收敛速度快、稳定性强以及泛化能力强等特点,支持向量机分类算法早已代替了神经网络算法。本文以支持向量机为基础分类算法,重点研究了如何将SVM在不均衡数据下的分类界面向着多数类样本进行适当移动。首先介绍了不均衡问题的本质及其经典的算法、机器故障诊断的研究现状,且对有关的基础知识进行分析和研究,为了选择出信息量大同时代表多数类空间结构的多数类样本,提出了核聚类欠取样集成的不均衡数据SVM分类算法,算法利用核聚类欠采样算法在核空间对多数类样本进行聚类,这一过程称之为核聚类,然后从每个聚类中选择出代表性强的多数类样本,同原始少数类样本一起作为训练样本,对基分类器SVM进行学习。另一方面,所得到的基分类器具有很大的差异性且满足一定的分类精度,所以提出利用AdaBoost集成算法对基分类器进行集成进而提高算法的分类精度。通过仿真实验可知,该算法较其他的一些不均衡分类算法不仅在性能上也在算法的复杂度上有了很大程度的改善。其次介绍了基于样本特性欠采样的不均衡SVM算法,首先在核空间内使用欧式距离来选择信息量大的多数类样本,再基于样本密度信息公式选择最具有代表性的均衡多数类样本点,并且同少数类样本一起作为训练样本对分类器进行学习。实验表明此方案与其他的不均衡分类算法相比,鲁棒性、少数类的分类性能以及总体分类性能都有相应的改善。最后,将核聚类欠采样集成的不均衡数据SVM分类算法应用到故障诊断领域,通过实验验证了该方法取得了良好的效果。