论文部分内容阅读
传统的聚类分析算法最常见的比如k-means算法和EM算法,这些算法都是建立在凸球形的样本空间上,当样本空间不为凸时,算法会陷入局部最优。谱聚类算法能在任意形状的样本空间上聚类且收敛于全局最优解的优点。它可以将一个复杂的聚类问题转化成一个代数求解问题,大大简化了聚类模型。但是谱聚类算法本身具有很多不足,最为基础的就是谱聚类(Spectral Clustering)所需要的相似矩阵的构造问题,它涉及到很多参数,已有的实验表明,谱聚类对相似矩阵十分敏感,所以如何构造一个好的相似矩阵就变得很重要了。但是,目前学术界还没有给出一个如何构造相似矩阵的指导性原则。此外,文本预处理作为文本聚类最重要的基础,常常采取向量空间模型。向量空间模型一个很大的缺点就是文本向量表示的高维性,特征项之间的同义多义造成了特征的大量冗余,针对这一问题,潜在语义分析(Latent Semantic Analysis, LSA)利用奇异值分解来达到降维和提高文本向量语义相关性的目的,同时还降低了文本数据处理需要的存储空间和时间复杂性。本文主要研究是将潜在语义分析与谱聚类结合起来。利用潜在语义分析的优点来构造谱聚类需要的相似矩阵。在这个过程中,本文主要做了以下几方面的工作:①分析了目前文本向量空间模型的不足:第一,文本向量表示的高维性,使得对文本数据的处理消耗大量时间;第二,文本向量各特征相互独立的假设很难满足,存在大量的特征冗余现象。针对这些问题,在第四章提出了结合潜在语义分析的谱聚类算法。②针对谱聚类的相似矩阵,本文没有专门研究影响其构造的许多参数,而是从文本数据集本身出发,应用潜在语义分析技术,在语义空间重新构造文本相似度,提高文本向量的表达力,从而最大程度上避免了参数不同时相似矩阵对谱聚类算法效果的影响。③在进行结合潜在语义分析的谱聚类实验后,本文进一步发现了一种简化的潜在语义分析技术,与经典的LSA算法相比,本文提出的技术在求文档相似度时候不必考虑奇异值矩阵,加速了实验过程,而且效果也很不错。进一步表明:本文采用的思路是正确可行的。