【摘 要】
:
决策树是应用最广泛的数据挖掘方法之一,研究的重点围绕数据处理的准确率、效率及数据降维等方面,增量式学习能力也是决策树算法的主要特征。SURPASS就是高效的增量式算法,能
论文部分内容阅读
决策树是应用最广泛的数据挖掘方法之一,研究的重点围绕数据处理的准确率、效率及数据降维等方面,增量式学习能力也是决策树算法的主要特征。SURPASS就是高效的增量式算法,能处理超内存的大规模数据集,但它在处理海量数据时也存在效率低下的问题。另外,决策树采用不纯度指标选择最佳分割属性,当数据集很大时,在分割每一步都可能有多个最佳属性,这为在一个数据集上构建决策树森林提供了可能性。传统的单分类器适应不了对高预测准确率的需求,而且数据产生、存储以及利用等方式的改变也促使对分类器研究的不断改进。一些学者发现传统的分类器之间存在着互补的信息,可以利用这些互补的信息来改善分类器的性能。针对SURPASS算法效率上的问题,本文基于信息论提出了一项基于信息量的指标,使用该指标在决策树分割的每一步,计算每个属性的信息量指标值,算法可选取信息量指标值较大的属性作为最佳属性,以减少对磁盘数据的访问从而提高运行效率。实验数据表明,这种方法是有效的。为使信息量指标具有理论依据,本文利用微分方法导出了信息量指标,通过该方法得到了信息量指标的两种计算方法,并指出了信息量指标在运行效率上的优势。本文还以SURPASS为基分类器实现了随机森林,最后通过实验验证了随机森林的性质。
其他文献
近年来,人体运动分析成为图像处理和计算机视觉领域中一个热点课题,它在人体动画、游戏、虚拟现实和增强现实、人机交互、视频监控、体育运动分析、辅助临床医疗诊断等领域都
Hidden Web中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然Hidden Web的信息量变得越来越大,但是现有搜索引擎对其的搜索
随着电信技术的日益成熟和电信市场竞争的逐步规范,电信运营商面对的竞争压力越来越大。为了在竞争中取胜,必须推出独具特色的、更具吸引力的业务吸引客户。电信运营商的经营
离群点检测是数据挖掘中重要的研究分支,用于识别某些特征显著区别于其他观测数据的对象。在实际应用如评估金融风险、检测结构的缺陷、侵入检测等领域中会出现的一些离群数据
随着计算机技术、网络技术,特别是Internet技术的飞速发展和广泛普及,人类社会正处于由工业经济向信息经济的深刻变革之中,信息化已经成为当今世界经济和社会发展的倍增器,成为了
近年来,随着嵌入式系统飞速发展,基于Linux的嵌入式系统已经能够提供统一的、可伸缩的解决方案,利用嵌入式Linux实现远程监控、图像采集与压缩成为可能。针对这一点,本文设计
随着互联网的高速发展和数据的爆炸性增长,用户面临着日益严重的信息过载问题,社会化媒体的兴盛使用户更加容易淹没在信息的海洋中。推荐系统作为一种比搜索引擎更加高效的信息
以总完工时间为目标的Flow shop调度问题是一个重要的制造加工系统,广泛应用于工业环境中。流水调度是很多实际流水线生产调度问题的简化模型,也是一类典型的NP完全问题,已被证
一个人的噪声可能是另一个人的信号,对于离群点的挖掘是数据挖掘领域的一个重要研究方向,在数据分析和挖掘的过程中,如何利用数据挖掘的相关技术准确的检测出数据中的离群点
计算机技术的发展把人类社会带入信息化时代,随着信息化进程的深入,通信技术与计算机及网络技术相融合,产生了一个新的研究领域--计算机支持的协向工作(CSCW-Computcr Supported