论文部分内容阅读
随着网络的快速发展,科研工作者在研究过程中不可避免地会遇到大量的高维数据,如文本数据、生物数据、网络数据以及金融交易数据等,经常会面临维数约简的伺题。其处理涉及到两个方面:一是维数灾难问题,维数膨胀给高维数据中模式识别和规则发现带来极大挑战:二是维数的增长又带来“维数福音”,从高维数据中蕴藏的丰富信息中可产生解决问题的新的可能性。如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一。降维方法作为克服“维数灾难”的有效手段,已经引起了人们广泛的注意,相应研究方兴未艾。
本文围绕维数约减的研究逐步展开,对线性和非线性维数约减的理论进行了深入的剖析,并研究了其在信息检索和图像处理方面的应用。
首先,本文提出了一种在潜在语义空间中基于词相似度的文本检索方法,使得查询结果在一定程度上去除了噪声特征的影响。该方法相对于直接计算相似度有一定的提高,且通过控制一定的参数,使得其查询时间不会随着文本集规模的变大增加很大。
其次,针对非线性维数约减的问题,本文提出了一种保留流形非线性结构的维数约减算法,并通过模拟的流形和图像流形验证了提出算法的效果。
第三,提出了一种新颖的流形学习算法。首先将样本数据映射到高位的希尔伯特空间,然后,利用谱图理论建立流形的局部逼近,并构造一种新的准则函数,将流形映射到低维空间中。最后通过数字可视化以及人脸识别等实验验证了算法的有效性及健壮性。
第四,成功地将FISHER线性判别准则与局部保存投影结合起来,构造出一种全新的维数约减算法,即保持了数据的局部几何特征又达到了使数据在低维空间中类内紧密,类间分散的目的。