论文部分内容阅读
近年来随着计算成本和存储成本的降低,集成学习成为机器学习领域的一个热门方向,通过模型的组合,能同时获得模型在计算能力和计算准确度这两个方面的巨大突破。集成方法根据基学习器和训练数据的不同,主要分为异质集成和同质集成。目前,将集成学习的思想应用在特征选择上的相关算法较多,但大多数集成特征选择方法都赋予了基学习器相同的权重,事实上,不管是异质集成和同质集成,在训练过程中均会产生不同的基学习器,各个基学习器对于训练集的适应程度不同,因此,我们针对集成特征选择方法在该方面的不足,提出了不同的基于权重调节的集成特征选择方法。针对同质集成,本文提出了基于softmax的集成特征选择方法,我们利用softmax函数,结合每个基学习器对数据集的适应度,对基学习器的投票权重进行调节,对于适应度较好的基学习器,其投票权重较高,同时,本文对该方法相比于无权重调节的集成特征选择方法在泛化能力上的提升进行了理论分析,并通过实验验证了基于softmax函数的集成特征选择方法在泛化性能上要优于无权重调节的集成特征选择方法。针对异质集成,本文提出了基于遗传算法的集成特征选择方法,该方法利用遗传算法对基学习器权重向量进行评估、迭代以及优化,得到最优的权重向量。针对返回的权重向量的类型,该方法分为两种——基于最优权值的集成特征选择方法和选择性集成特征选择方法,其中基于最优权值的集成特征选择方法返回的权重向量为连续型,选择性集成特征选择方法返回的权重向量为离散型,最后通过实验验证了这两种方法相比于无权重调节的集成方法在泛化能力上更具优势。此外,在基于遗传算法的集成特征选择的基础上,针对遗传算法不擅长处理连续问题以及计算复杂度高的缺陷,本文提出了基于粒子群算法的集成特征选择方法,最后通过实验验证了该方法在速度上的优势。