论文部分内容阅读
现实世界数据分类的应用通常会遇到数据不平衡的问题。在不平衡数据集中,大部分样本属于“正常”类,称为负类,只有很少的一部分样本是“异常”的或者说是引起兴趣的,称为正类。通常,在数量上占少数的正类才是分类关注的重点,而且正类往往具有很高的错分代价。但是传统的分类算法是以整体精确度最大化为目标的,因此,其分类结果会偏向数量众多的负类,少数类的分类性能可能会很差。目前,针对不平衡数据分类问题主要工作集中在数据层面的重采样技术和算法层面的改进。重采样方法中最典型的是SMOTE算法。SMOTE算法是一种过采样方法,通过在特征空间上合成少数类样例来使数据集趋于平衡。算法层面提出的一种方法是Boosting集成学习算法,它关注那些“困难”样本,由多个弱分类器组合成一个强分类器。但是,SMOTE算法并没有考虑不同区域的少数类样本对少数类分类性能的贡献的差别,Boosting算法同等对待难以被正确分类的多数类和少数类,这在一定程度上阻碍了少数类分类性能的提升。本文从数据层面提出了一种区域有差别的过采样方法DSMOTE算,然后与Boosting算法相结合得到不平衡数据分类算法DSMOTE-Boost。该算法将少数类划分成安全样本、边界样本和孤立点,分别采用不同的采样策略,增加对边界样本的重视,通过设定不平衡率阈值考虑了孤立点价值;同时,提出了一种自适应调整边界样本采样倍率的方法,避免了盲目过采样。本文算法在多个UCI数据集上进行了实验,结果表明DSMOTE-Boost算法是有效的,获得了较好的少数类分类性能。