组合分类器剪枝方法的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:lvsby2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组合分类器学习是机器学习、模式识别和数据挖掘中非常活跃的研究领域。已有的研究表明,给定相同的训练信息,组合分类器往往表现出比单个分类器更好的泛化能力。然而,大部分组合分类器学习方法都存在共同的问题:倾向于构建大量基分类器模型。大量基分类器不仅需要大量存储空间而且增加了组合分类器预测响应时间。另外,在组合分类器中,某些基分类器不仅无助于提高组合分类器的泛化能力,而且还可能降低组合分类器的分类准确率。组合分类器剪枝是处理该问题的一种有效方法,受到了广泛关注。   组合分类器剪枝有两种方法:一种方法是从给定的基分类器中选择一个最优或次最优的子集,构建组合分类器;另一种方法是从组合分类器整体考虑,直接对每个基分类器剪枝。关于基分类器的选择,已经提出了一些算法,但仍然需要进一步研究,而第二种方法则很少有人涉及。由于两种方法都面临搜索指数级空间问题,因此穷举搜索是计算不可行的。解决这些问题的关键是(1)构建好的度量指标,评估基分类器选择和基分类器剪枝,指导搜索过程;(2)寻找合适的选择和剪枝方法。本文针对以上问题,研究组合分类器的剪枝,并进一步把剪枝的思想融入基于决策树的组合分类器的构建中,直接构建更有效的组合分类器。本文主要贡献和创新点如下:   1)提出了基于边界的组合分类器剪枝方法。根据边界理论,构造了一种基于边界的度量指标(MBM,Margin-basedMeasure)用于评估基分类器相对于组合分类器的重要性。根据MBM,设计了一种基于边界的贪心组合分类器剪枝算法(MBMEP,MBM-basedEnsemblePruning),以降低组合分类器规模并提高它的分类准确率。实验结果表明:即使直接使用训练实例集作为剪枝集,MBMEP也能显著地降低组合分类器的规模并提高它的分类准确率;与已有的组合分类器剪枝方法相比,MBMEP在大部分数据集上都具有更好的泛化性能。   2)提出了基于置换策略的组合分类器剪枝方法(EPR,EnsemblePruningviabase-classifierReplacement)。与传统组合分类器剪枝方法不同,EPR初始化子组合分类器S为预定义大小,然后迭代地通过用较好的基分类器置换S中最差的基分类器,直到置换不能进行。为了确定是否应该进行置换,本文提出一种基于差异性的度量指标,用于度量基分类器对组合分类器的贡献。实验结果表明,EPR能够有效地降低组合分类器规模并提高它的泛化能力。   3)提出了一种基于贡献增益的森林剪枝方法FTCG(ForestTrimmingbasedonContributionGain)。基于决策树的组合分类器可以被视为一个森林。与对每棵决策树分别进行剪枝的传统剪枝方法不同,森林剪枝把所有的决策树看作一个整体,更加关注剪掉决策树的分枝对组合分类器性能的影响。为了确定森林的哪些分枝可以被剪枝,本文提出一种称作贡献增益的度量,评估剪掉决策树的一棵子树对组合分类器性能的影响。实验结果表明,无论森林是基于某种森林学习方法构建的还是某种传统组合分类器剪枝算法的结果,无论每棵决策树是剪枝过的还是未剪枝的,FTCG都能进一步降低每棵决策树的规模,并且在大部分数据集上显著地提高了的森林的分类准确率。   4)提出了一种新的基于决策树的组合分类器学习方法FL(Forest Learning)。与bagging和adaboost等传统的组合分类器学习算法不同,FL不采用抽样或加权抽样,而是直接在训练集上学习一个森林,作为组合分类器。首先,使用传统的方法构建森林的第一棵;然后,逐一构建新的决策树添加到森林中。在构建新的决策树时,结点的每次划分都考虑对组合分类器的影响。实验结果表明,与传统的组合分类器学习方法相比,FL在大部分数据集上都能构建出性能更好组合分类器。
其他文献
在电信行业的不断发展的今天,如何挽留老客户并吸引新客户,是运营商面临的重要问题,营销案业务则属于运营商的稳定客户的主要手段之一,通过营销案的赠费吸引新老客户参与,通过营销
大数分解问题既是数学界重要的科学问题,也是RSA类型密码系统的基本问题。目前解决大数分解问题主要从改进大数分解算法和提高计算机的计算能力两方面进行研究。大数分解算法
我国的公安机关在多年的工作中,一方面不断推进信息化的建设,另一方面,其在公安工作的专门数据和社会信息方面都有了相当大规模的数据积累,使用数据挖掘技术来分析犯罪的各种
XML非完全结构查询是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。XML数据查询算法按照查询模式描
数字技术的飞速发展和各种功能强大的图像处理软件的出现,使得图像的编辑、修改变得越来越简单。正当人们在享受这些工具带来的方便和快乐的同时,对图像无意或故意的篡改也出现
在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法
录井导向成果包括通过录井导向技术获得的数据和图形资料,是石油钻探开采中的重要资料,它集中反映了地下岩层性质和油田分布状况。随着计算机软件和互联网技术的不断发展,传
随着网络技术的迅速发展,数字签名技术在我们的社会经济和生活中得到了越来越广泛的应用。为了满足某些特殊环境的需求,产生了一些具有特殊性质的数字签名,群签名是其中有代
作为人工智能领域的一个热门研究问题,如何让计算机更加准确地了解人们的意图,一直是该领域研究的主要方向。目前手绘草图已经成为人机交互又一重要方式。针对目前跨领域手绘草
社区发现,是指在社会网络中发现有用社区结构的过程。随着科技的发展,社会网络以多种形式影响着现实世界中各个领域的方方面面,如朋友关系网络、科学家文献引用网络以及信息通讯