论文部分内容阅读
样例选择是数据挖掘中一个重要的数据预处理步骤。大多数样例选择算法选择边界样例,边界样例的不确定性大,包含的有用信息更多,因此对分类更重要。目前存在的多数样例选择方法都是针对某种特殊的分类器设计的,比如最近邻(NN)分类器,支持向量机(SVM)分类器。然而NN分类器要计算任意两样本的距离,因此时间和空间复杂度都很高,SVM的训练时间复杂度也较高。如何能力保持的前提下,有效地降低其训练时间并得到较小的一致子集是样例选择研究的热点。极端学习机(ELM)随机指定权值和偏置,以学习速度快,泛化能力强而著称。PNN输出结果为后验概率,学习速度也非常快,并且能够得到贝叶斯最优判别边界。基于它们的特点本文提出了两种样例选择算法:基于ELM的样例选择和基于PNN的样例选择。在两种方法中都利用样例熵来度量其不确定性,并与当前的样例选择算法进行了实验比较,并对实验结果进行了统计分析。实验结果显示,两种方法都是行之有效的。第一种方法大大减少了样例选择时间,与其它算法相比具有明显优势,统计分析结果也验证了其保持了分类测试精度。第二种方法能够保证分类器性能与此同时在样例选择时间,样例压缩比例间做出平衡,优于其它几种方法。