论文部分内容阅读
随着现代计算机应用需要处理越来越多的高维数据,如何对高维数据进行有效的维数压缩,成为一个急待解决的问题,流形学习是一种流行的降维方法,它通过保持高维数据的拓扑结构完成降维任务。局部线性嵌入方法是一种应用广泛的流形学习方法,本文提出算法的一种改进,并将其应用于空间数据索引。 本文介绍流形学习方法和其已有应用,讨论其中有代表意义的一种方法—局部线性嵌入算法。在实际应用中,我们发现大多数需要处理的高维数据样本通常是稀疏的,且数值实验结果表明,局部线性嵌入算法在源数据稀疏时失效。通过分析局部线性嵌入算法的局部线性假设,以及算法实现过程中保持局部近邻性质的手段,我们发现算法的实现过程和算法的理论基础之间存在差异。局部线性嵌入算法通过保持表示坐标不变保持源数据的近邻性质,且表示坐标仅由源数据空间求得,而实际上,表示坐标应由源数据和目标数据空间内的数据共同决定,局部线性嵌入算法忽略了目标空间数据在计算表示坐标时的作用,使算法求得的表示坐标和表示坐标的真实值产生偏离,且偏离度随着源数据稀疏度的增加而增大,从而在源数据样本稀疏时无法保持邻域性质,导致算法失效。 针对这一问题,我们对源数据和目标数据空间内的两个优化函数联合优化,得到一种由源数据空间和目标空间内的数据共同决定表示坐标的新方法—联合局部线性嵌入方法。它真正实现了局部线性假设的基本思想,在源数据稀疏的情况下也能保持源数据的拓扑结构,这种方法的有效性通过对人工数据和两组人脸图像的处理结果得到验证。 空间信息应用是目前最热门的研究课题之一,但由于空间数据是一种高维数、高复杂度的数据源,且常伴随大量噪音,如何有效的组织、查询空间数据是空间信息应用中的一个关键问题,空间数据索引技术是空间处理处理的一项关键技术,我们在分析和理解空间数据自身特性的基础上,把联合局部线性嵌入算法和R树机制相结合实现空间数据索引功能。