论文部分内容阅读
集成剪枝所解决的问题是从原始集成系统中,找到一个合适的成员模型子集来替代原始集成系统,这是一个组合优化问题。剪枝不仅可以减小集成系统的规模,更能够提高系统的推广性能。近年来,基于贪婪策略的集成剪枝方法得到研究者们的重视,他们不仅研究了不同搜索方向对剪枝算法的影响,而且提出了许多用于贪婪剪枝算法的度量标准。人们通常认为,多样性对集成剪枝算法至关重要,并提出了许多基于集成多样性的度量标准,取得了良好的效果。多样性和精确度是集成系统的两个重要属性。然而,以往的剪枝算法往往将多样性和精确度分开考虑,只重视其中一个而忽略另外一个。而我们认为,这两个属性彼此关联且相互影响,在集成的剪枝过程中需要同时考虑这两个属性。从同时考虑集成多样性和精确度的立场出发,本文提出三种度量标准SDAcc、DFTwo以及AccRein,它们都是针对贪婪算法提出的。度量标准SDAcc的动机是同时兼顾当前集成子集和候选基分类器的多样性和精确度,且SDAcc没有放弃对困难样本的处理,以进一步提高集成系统的推广性能。度量标准DFTwo的灵感来自于对集成系统多样性的理解:集成系统多样性更多地关注候选分类器与当前集成子集的不同之处。度量标准AccRein相对于DFTwo,加强了对集成精确度的考虑。基准分类数据集上的实验证明,这三种度量标准都取得了较好的剪枝效果。以往对贪婪剪枝算法的研究往往忽略了贪婪算法的局部极小点问题。我本文针对此问题,结合GRASP算法的特点,提出了旨在解决局部极小点问题的剪枝算法—GraspEnS。一方面,通过引入随机因素,GraspEnS算法改善了贪婪算法的搜索策略;另一方面,GraspEnS算法实现了多起始点搜索,扩展了贪婪算法的搜索空间。基准分类数据集上的实验表明,本文提出的GraspEnS算法相对于其他算法,能够很好地解决贪婪策略中起始点和搜索策略的选择问题,从而部分地解决贪婪算法的局部极小点问题,最终取得较好的剪枝效果。