论文部分内容阅读
随着数据挖掘技术的不断发展和应用,决策树作为数据挖掘技术中的一个分类问题的解决策略,也越来越受到重视,并被不断的研究。目前研究决策树的算法很多,比较著名的有ID3算法、C4.5算法和CART算法等。这些传统的算法在构建决策树时,都是以数据集的类分布大致平衡为前提条件的,不能对少数类样本做出有效的识别。在不平衡数据集中,少数类样本成为主要应用和研究的对象,因此基于传统决策树算法设计的分类器就完全失去实际意义。研究新的方法来解决这一问题变得非常迫切。 本文简单介绍了数据挖掘的相关知识,研究了目前的分类技术,以及常用的分类算法。通过对不平衡数据集的研究,发现传统分类算法无法有效解决不平衡数据集分类问题,并分析了产生这种情况的原因。本文基于对决策树技术的学习和研究,提出一种新的针对不平衡数据集分类问题的决策树算法-类置信度比例决策树算法,通过对信息增益的描述验证了新算法是健壮的。新算法采用了类置信度比例作为度量。同时通过一个新颖而有效的自上而下和自下而上的方法,用Fisher的修剪树枝法去精确测试它是否是一个统计标志。使用新算法产生的分类器不但解决了不平衡数据集问题,而且比著名的平衡取样技术学习树能更好的完成统计。通过大量的实验验证了新算法比传统的决策树算法更具有优越性。