基于规则的组合分类器的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:oslo123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘的重要研究课题之一。它广泛地应用于科学实验和商业预测等领域。如何提高分类模型的准确率是分类的核心问题,组合分类模型在理论和实验中比单个分类模型有着明显的优势。本文以规则分类为基础,深入探讨了基于规则的组合分类器。常见的Bagging和Boosting主要是基于有放回抽样。在小样本数据集上该抽样可能引起信息丢失,造成基分类器准确率下降,从而影响整体分类性能。因此,本文使用全部的数据集建立基分类器,保证了信息的完整性,从而使基分类器有着较高的准确率。基于上述思想,本文提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管本文的方法也采用基分类器预测的加权投票来决定待分类样本的类,但是本文为基分类器创建训练数据集的方法与Bagging和Boosting完全不同。本文的方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成k个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:本文的算法不仅能够显著提高基于规则的分类方法的分类性能,而且与Bagging和Boosting等传统组合方法相比,本文的算法在大部分数据集上都具有更高的分类准确率。本文研究了基分类器之间的差异性及其准确率对PCARules模型性能的影响。观察3个随机选取的数据集上的实验结果,我们发现:基分类器间的高差异性并不能保证组合分类器的高准确性(AdaBoost),相比之下,适度的差异性和较强的互补性往往能产生更好的组合分类器(PCARules);同时,基分类器本身的准确率对组合分类器的性能也可能有很大的影响,比如,在PCARules中,基分类器准确率明显高于Bagging、AdaBoost方法中的基分类器。
其他文献
片上多核已经成为当今处理器设计的主流。在多核时代,为了将不断增长的片上资源转变为程序性能提升,必须充分利用其硬件多线程并行执行的优势。但是,并行程序的设计是困难的,
虚拟植物是利用虚拟现实技术在计算机上精确模拟出自然界植物在三维空间中的生长发育过程,是近年来随着诸多交叉学科包括植物学、生态学、农学、计算机图形学以及数学等的发
近年来,随着移动互联网的飞速发展,智能终端设备得到广泛的普及,尤其是Android系统已经成为移动市场份额第一的操作系统。Android系统给人们带来极大便利的同时,也带来了极大
异常检测作为复杂网络理论研究中的一个重要问题,近年来受到了来自诸多领域研究学者的关注。以往对复杂网络异常检测的研究中,大多是将网络处理成静态图。然而许多实际的网络
随着计算机网络和多媒体技术的迅猛发展,数字作品的非法复制和传播越来越严重,对多媒体信息实施有效的保护显得尤其重要。数字水印技术作为信息保护的手段之一,是当前多媒体
随着M2M(Machine-to-machine)应用的广泛发展,接入的设备种类也越来越繁多,由此产生了设备异构性问题。M2M垂直领域内发展问题,设备的异构性,服务的多样性使得M2M互联互通变
云计算从网格计算、分布式计算、并行计算发展形成,打破传统IT服务模式,通过与互联网的结合成为一种新型商业模式,通过虚拟化技术对底层物理资源虚拟化形成虚拟资源池,数据中
长期以来,时态数据库和空间数据库作为数据库中两个重要的研究领域是相互分离的,然而现实世界中许多实体都同时具有时间特性和空间特性,因此时空数据库在时态数据库和空间数据库
随着物流系统中商品流量的增大,嵌入式电子标签读写器已成为不可缺少的商品识别设备。为了自动地批量地辨识物流中的电子标签,本文设计并实施了一个嵌入式无线频率识别设备(R
在计算机视觉和智能视频监控领域中,步态识别是生物特征识别技术中一个新兴的研究领域,它是一种根据人的走路方式来识别身份的方法。相对于其他生物特征识别技术(如指纹、虹膜、