论文部分内容阅读
分类是数据挖掘的重要研究课题之一。它广泛地应用于科学实验和商业预测等领域。如何提高分类模型的准确率是分类的核心问题,组合分类模型在理论和实验中比单个分类模型有着明显的优势。本文以规则分类为基础,深入探讨了基于规则的组合分类器。常见的Bagging和Boosting主要是基于有放回抽样。在小样本数据集上该抽样可能引起信息丢失,造成基分类器准确率下降,从而影响整体分类性能。因此,本文使用全部的数据集建立基分类器,保证了信息的完整性,从而使基分类器有着较高的准确率。基于上述思想,本文提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管本文的方法也采用基分类器预测的加权投票来决定待分类样本的类,但是本文为基分类器创建训练数据集的方法与Bagging和Boosting完全不同。本文的方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成k个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:本文的算法不仅能够显著提高基于规则的分类方法的分类性能,而且与Bagging和Boosting等传统组合方法相比,本文的算法在大部分数据集上都具有更高的分类准确率。本文研究了基分类器之间的差异性及其准确率对PCARules模型性能的影响。观察3个随机选取的数据集上的实验结果,我们发现:基分类器间的高差异性并不能保证组合分类器的高准确性(AdaBoost),相比之下,适度的差异性和较强的互补性往往能产生更好的组合分类器(PCARules);同时,基分类器本身的准确率对组合分类器的性能也可能有很大的影响,比如,在PCARules中,基分类器准确率明显高于Bagging、AdaBoost方法中的基分类器。