论文部分内容阅读
在大数据时代,数据量增多的同时,数据的维度也在不断的增长。高维数据使得数据挖掘模型的构建以及挖掘算法的运行效率大大降低,同时众多噪声和野值数据也会影响算法运行的结果,导致模型的低效率、过拟合以及预测能力低下等问题。为了应对高维数据带来的挑战,并有效处理噪声和野值,本文通过对降维方式和鲁棒学习结构进行研究,提出了一种新的鲁棒特征选择算法,主要工作为以下三个方面: (1)分析研究了降维方式和鲁棒学习结构。通过对数据挖掘过程中几种降维方法进行研究比对,将研究重点聚焦于嵌入类特征选择方法。同时,针对噪声和野值对算法的影响,提出了具有高度鲁棒性和稀疏性的维度缩减方法。 (2)通过基于最优化capped??2范数损失函数与?2,p范数正则项的连接,提出了新的鲁棒特征选择算法SCM(SimultaneousCapped?2-Normand?2,p-NormMinimizationforRobustFeatureSelection)。这其中,capped??2范数损失函数对噪声和野值都具有很强的鲁棒性,?2,p范数正则项可以提供有效的稀疏性,因此算法在特征选择工作中可以有优异的表现。通过对SCM算法模型的研究,提出了一个有效的求解方法,进而确定SCM的算法步骤。随后,对算法收敛性进行了严格的证明并对算法的参数确定和评估进行了有效的分析。 (3)通过对SCM算法进行现实数据集的实验对算法性能进行了详尽的探究。提出了一个2D的仿真模拟实验,用于证明capped??2范数的鲁棒性要优于?2,p范数,从而对SCM算法的鲁棒性加以有效验证;利用特征选择领域常用的不同类别的经典现实数据集对SCM算法进行评估,通过与其他五种经典特征选择算法的横向比较,以及不同度量指标的纵向比较,用以证明SCM算法在现实数据集中的优异表现;研究算法的收敛过程,从实验验证角度对算法收敛性进行证明;对算法参数进行评估,证明了算法参数的影响性和稳定性。