论文部分内容阅读
分类器集成技术是模式识别和数据挖掘领域的研究热点,由于其分类效果往往比单一的分类器效果更好,所以在近十几年里得到了迅速的发展。在分类器集成技术的研究中,单个基分类器的识别精度和基分类器间的差异性是两个最重要的影响因素,当基分类器的识别精度越高,且差异性越大,集成算法的分类性能就越好。针对高维数据的分类问题,由于其存在特征的冗余性和稀疏性,采用传统的分类器集成算法时,将导致基分类器的识别精度下降以及差异性减小,影响算法的整体分类性能。为此,本文提出了一种基于旋转子空间和保局投影的高维数据分类器集成方法(Rotation Subspace Locality Preserving Prejection, RSLPP)。该方法首先将原始训练集投影到多个不同的旋转子空间(Rotation Forest, RS)中获得不同的特征子集,以增加基分类器间的差异性;其次,将得到的多个特征子集分别进行保局投影(Locality Preserving Prejction, LPP)后,再进行基分类器的训练,以提高基分类器的识别精度;最后,将基分类器的输出结果按多数投票法进行组合,得到最终的分类结果。本文主要开展了如下研究工作:①调研了关于分类器集成算法的研究背景和发展现状,在此基础上深入学习了关于分类器集成算法的基础理论和经典的集成算法,如Bagging、Boosting、随机森林(Random Forest)和旋转森林(Rotation Forest)等算法,重点研究了旋转森林的算法基本原理和实现过程。②本文将现有的分类器集成算法直接应用于高维数据的分类实验,结果表明:由于高维数据的特征信息的冗余性和稀疏性等特性,往往会导致所生成的基分类器识别精度下降;同时随着特征维度的增加,基分类器间的差异性也随之降低。因此,本文提出了一种旋转子空间(RS)法,该方法首先将特征集随机划分成多个特征子块;然后,把所有特征子块做随机采样处理的特征向量重新组合得到一个旋转子空间,经过多次迭代,得到多个不同的旋转子空间;最后,将原始的数据集投影到多个旋转子空间中获取不同的特征子集,以此增加特征子集间的差异性。③在特征子集的构造过程中,在每个特征子块中都随机保留了一部分无效的特征信息,以此增加每个子集间的差异性。为了从特征子集的角度剔除这些参杂在其中的无效特征,本文引入了保局投影(LPP)方法对每个特征子集进行特征提取,再根据处理后的特征子集训练基分类器,以提高基分类器的识别精度。最后,把每个基分类器的输出结果按多数投票法进行组合,得到整个方法的分类结果。综合上述过程,本文提出了一种基于旋转子空间和保局投影的高维数据分类器集成方法。④为了验证本文所提出方法在对高维数据的分类问题中的有效性,本文搜集了多个高维数据库(包括七个来源于UCI repository的数据集和两个人脸数据库)。将本文所提出的方法与现有的分类方法做了对比实验,并引入了4种评价指标包括算法的正确率、方差-偏差和Kappa-error图。实验的结果可以表明本文所提出的方法在对高维数据的分类问题上是有效的。