论文部分内容阅读
随着科技的发展,各个领域积累了大量的高维数据,这对存储和计算方面都是极大的挑战.解决这一问题的有效方法是特征降维.由于人工标注的困难和高成本,在实际应用中,有标签样本较少,无标签样本较多.因此,非监督特征选择和半监督特征选择成为了机器学习领域的热门研究方向.特征降维可以通过特征提取或特征选择实现,目前将特征选择和子空间学习相结合的特征选择方法逐渐成为该方向的研究热点,其特点是通过保持数据的结构信息得到变换矩阵,再根据变换矩阵的行或列向量的范数引导特征选择.数据的流形结构保持可选择出有类别判别能力的特征.常用的结构保持方法有局部线性嵌入(LLE)和稀疏保持投影(SPP)等,由于能保持数据的流形结构而被广泛应用.但是这些基于结构保持的特征选择方法研究中仍然存在一些问题,比如参数难以确定、对于噪声的鲁棒性不强及不能获得丰富的判别信息等.本文以改进这些问题为出发点,围绕基于结构保持的特征选择方法进行深入研究,提出了相应的解决算法,并在一些标准数据集上对所提算法进行对比验证.本文的主要工作和创新点如下:1.针对低秩稀疏保持投影(LRSPP)模型缺乏原始数据空间和所选特征张成的子空间之间的信息差异度量,从而导致降维过程中可能的信息损失,同时缺乏投影矩阵的稀疏正则项导致不能选择出稀疏的特征的几个问题.本文提出全局和内部几何结构嵌入的非监督特征选择(GGEFS)算法.该降维模型综合考虑了降维前后的信息差异度量、结构保持和投影矩阵的稀疏正则项.其中信息差异度量可减少降维过程中的信息损失.结构保持将事先学习到的样本低秩稀疏表示嵌入在降维过程中,保持了数据的全局和内部几何结构信息.投影矩阵的稀疏正则项使用l2,12混合分数范数,能选择出更稀疏和更有判别性的特征.2.针对半监督特征选择方法,本文提出了低秩稀疏图嵌入的半监督特征选择(SFS-LRSE)方法.在结构学习的过程中充分利用已有数据,对有标签数据与无标签数据分开学习其低秩稀疏表示,有标签数据按不同类别分开学习,将得到的总体低秩稀疏图嵌入在降维过程中,从而将数据的结构信息充分地保持在低维空间中.