论文部分内容阅读
随着互联网、数据采集、信息获取等技术的快速发展,数据以爆炸式增长。如何在纷繁复杂的数据中挖掘其内在本质信息,即数据降维,是计算机视觉、数据挖掘、模式识别、机器学习等领域的研究热点。与此同时,随着特征提取算法的不断进步,单一视图的数据已经不能满足对复杂数据的描述,人们面临着越来越多的多视图数据。而多视图数据的不同视图特征位于不同的特征空间,不能直接用传统的机器学习算法处理。因此,如何充分挖掘不同视图的共享信息和异构信息是对多视图数据进行处理的重点和难点。在对现有降维算法深入研究的基础上,针对它们存在的一些问题,本文首先介绍了一种基于稀疏图嵌入的降维框架,一方面稀疏表示可以用来挖掘数据紧致有区别性的隐子空间;另一方面通过“采样,投影”策略使得基于稀疏图嵌入的线性降维算法能够有效地处理大规模数据。定性和定量的实验结果验证了该降维框架能够提高原始降维算法的性能,同时“采样,投影”策略的运用大大减少了算法的时间复杂度和空间复杂度,使之适用于大规模数据。其次,提出基于马尔科夫链的鲁棒多视图降维算法。该算法充分利用了马尔科夫链平稳分布的性质,通过低秩和稀疏分解有效地去除转移概率矩阵中的噪声,并且分别从相似性和重构的角度构建线性映射矩阵,使得高维数据能够方便地获得其对应的低维表示。通过与现有经典的多视图降维算法对比,实验结果验证了算法确实能够获得更有利于分类任务的低维嵌入表示。最后,提出一种基于矩阵分解的多视图降维算法。该算法利用矩阵分解去挖掘和整合不同视图数据的共享信息和异质结构,同时为每一个视图设定一个权值,自适应调节不同视图在构建最终的低维一致性表示的过程中的贡献程度。同时这个权值在交替迭代优化算法中会不断地自动更新,从而优化出最优的低维表示。实验表明,本方案能够挖掘所有视图的共享特征,同时考虑了不同视图特殊的几何结构特征,所以获得更好的分类性能。