论文部分内容阅读
高维数据是高新科学技术的重要产物,由于科学技术的进步使得高维数据收集变得越来越容易,如生物基因数据、市场经济数据、文本文档数据、数字图像数据等,这些数据蕴藏的巨大价值已经逐渐被人们认可.然而直接对高维数据进行处理是很困难的,非线性降维技术作为数据挖掘应对海量高维数据的一种非常重要的数据预处理方法,对这些数据进行有效降维之后可以将高维数据转换为一个更紧凑的低维表示,从而得到隐藏在高维数据集中有意义的低维数据结构,提取出数据主干信息.因此,要研究出高效、准确的高维数据非线性降维方法具有重要的理论意义和实际应用价值.本文主要在参与高维数据的非线性降维改进方法理论研究的同时,结合人脸图像数据,开展以下三个方面的研究工作:1.针对局部线性嵌入算法中欧氏距离不适用于非线性高维数据近邻点的查找等缺点,结合测地线距离和Rank-order距离各自特点提出了基于Geodesic Rank-order距离的局部线性嵌入算法,并通过ORL人脸数据库和Yale人脸数据库上的对比实验验证了该算法的优越性.2.利用部分样本的类标签信息重新调整相似性度量方式,提出了基于测地线距离的类标签信息半监督局部线性嵌入算法,结合极限学习机得到测试集样本的低维坐标信息,并用实验验证了该改进算法是一种降维效果较好的半监督降维方法.3.通过基于测地线距离的半监督局部线性嵌入算法对训练集样本降维得到其低维坐标作为先验信息,用其来指导局部线性嵌入算法降维提出了基于测地线距离的低维坐标信息半监督局部线性嵌入算法,与上述两种改进算法在ORL人脸图像和Yale人脸数据库上进行了对比实验,发现基于低维坐标信息的半监督局部线性嵌入算法虽然计算上比较复杂,但具有更强的分类性能.