论文部分内容阅读
伴随着信息时代的到来,各行各业产生的数据铺天盖地般涌现,其中高维数据的出现和增长给数据处理带来了极大的挑战.一方面,高维数据容易使数据处理陷入维数灾难的陷阱;另一方面,高维数据中的冗余特征和不相关特征会对数据描述和应用产生干扰.特征选择技术通过对数据进行降维和滤噪,能够为后续的数据处理奠定基础.互信息属于信息准则中的典型度量,它不需要预先知道原始数据的分布,并且原始数据经过变换后仍然保持信息熵的不变性.随机森林可以有效地识别信息特征,并且很好地处理特征与分类器间的关系.本文结合两者的优势,研究基于互信息和随机森林的混合特征选择算法.论文针对Hapfelmeier等提出的随机森林特征选择算法中存在的不足进行改进.改进后的算法基于置换理论框架,使用随机森林进行特征选择.首先分别置换每个特征的数据,每置换一次需要重新构造随机森林并计算特征的重要性值,经过多次置换后会产生一个特征重要性的经验分布.然后使用置换重要性算法对特征重要性的经验分布拟合一个合适的概率分布,再从该概率分布中使用统计方法评价每个特征的p值.如果置换重要性算法找不到合适的概率分布,仍然使用原算法中的p值估计方法.最后根据每个特征的p值筛选特征.通过与七个算法的对比分析表明,改进后的算法在分类精度、泛化能力和运行时间上具有一定的优势.将基于互信息的特征选择算法与上述改进后的算法相结合,提出了一种新的基于互信息和随机森林的混合算法.该混合算法分为两个阶段:首先通过贪婪搜索的方式寻找特征,使用互信息评价特征与类变量间的关系,快速过滤掉一部分冗余特征和不相关特征,从而降低样本空间的维数;其次将第一阶段选出的特征输入到改进后的算法中,基于置换理论框架使用随机森林精选出最终的特征子集.从UCI数据库中选取六个真实数据集,将混合算法与七个现有的算法进行对比分析.实验结果显示,混合算法在分类精度和泛化能力上有一定的提高.