论文部分内容阅读
信息化时代的高维大数据通常呈现高维,多样性的特点。由于这些数据在积累的过程没有经过选择,使得高维大数据存在大量的不相关,冗余的属性,而能有效表达数据功能的属性被隐藏其中。这不但会增加存储数据所需的空间,还会消耗大量的计算资源,特别是随着数据维度的增加达到某一个值时,反而会导致数据挖掘算法性能的下降。因此对高维数据进行维数约简对于解决目前高维数据面临的诸多问题具有重要意义。属性选择作为维数约简的一种有效方法,在可靠性和对结果的解释性上都好于子空间学习方法,但子空间学习可用于探索数据的内部结构。所以本文结合这两种方法,从自步学习和鲁棒估计的角度,针对目前的属性选择算法未能充分考虑噪声和异常值影响以及忽略实现世界中的数据大多存在的流行结构从而导致的数据挖掘算法性能不佳等问题,提出了两种属性选择算法。具体如下:(1)针对现有属性选择模型没有充分考虑离群训练样本的影响而导致模型泛化能力差问题,提出一种结合自步学习和稀疏学习的有监督属性选择算法。具体地,首先通过自步学习理论优先选择高置信度的样本来训练初始属性选择模型,然后依次加入次高置信度的训练样本增加初始选择模型的泛化能力,直至增加的训练样本使得模型的泛化能力减弱或者所有训练样本被用完。最后用选择的属性进行多元回归分析检验提出的SPM_RS算法的性能。六个公开的数据集上实验结果显示,该算法在回归分析中得到的结果均优于对比算法。(2)传统的属性选择模型易受异常值的影响,同时未能考虑到数据中的局部流行结构,所以在本文中,我提出通过学习一个变换矩阵来进行鲁棒图降维,在不受异常值影响的情况下将原始高维数据映射到其低维属性空间。为了做到这一点,1)我提出的方法同时自适应学习三个矩阵。即,原始数据的反向图嵌入矩阵,变换矩阵,以及在其低维属性空间中保持原始数据局部相似性的图矩阵;2)使用鲁棒估计器,避免这三个矩阵优化过程中的异常值的影响。因此,原始数据通过两种策略进行清理,即,基于三个结果变量和鲁棒估计器对原始数据的预测。利用反向图嵌入和图矩阵的方法,从精确估计的属性空间中学习变换矩阵。此外,对所得的目标函数提出了一种新的优化算法,并从理论上证明了算法的收敛性。实验结果表明,该方法在不同的分类任务上优于所有的比较方法。综上所述,本文创新的将自步学习和鲁棒估计嵌入属性选择模型,自步学习作为一种鲁棒学习方法倾向于平稳的探索数据,鲁棒估计通过给异常值赋予较低的权值来最小化异常值的影响,并结合流行学习探索数据的内部结构。为了测试提出方法的性能,所有的实验均在公开数据集上进行,并与最近几年优秀的降维算法做对比,使用分类和回归作为评价方法。实验结果显示,我设计的方法性能优于对比算法,证明了我提出方法的有效性。