论文部分内容阅读
谱聚类是在谱图划分理论基础上产生的聚类分析的一个崭新的分支,与传统的聚类算法相比,具有能在任意形状的样本空间上聚类,且能收敛于全局的优点。谱聚类算法利用Laplacian矩阵对原数据空间进行重构,降低了聚类分析的维数,使得数据在子空间的结构更加清晰。本文概括性介绍了谱聚类的基本原理,谱聚类算法及其分类,在对国内外文献研究的基础上总结提出了目前在谱聚类算法的研究中存在的问题及面临的挑战,并以相似矩阵的创建为切入点对传统的谱聚类算法做了改进,解决的主要问题和成果如下:1.将模糊相似矩阵引入谱聚类,避免了传统谱聚类算法中参数的经验设定。考虑了属性重要程度的不同,构造了加权距离矩阵和加权相似度矩阵;为了全面描述数据结构,综合考虑数据集的空间邻近信息和特征相似信息,构造了混合加权模糊相似矩阵。并用矩阵的传递闭包法进一步提升混合加权模糊相似矩阵的性能。将混合加权模糊相似矩阵引入谱聚类,提出了基于混合加权模糊相似矩阵的谱聚类算法。考虑到谱聚类算法对输入数据顺序的敏感性,又构造了基于粒子群算法的谱聚类算法。2.在计算属性权重时,考虑到目前比较常用的方法如专家打分法、层次分析方法和因子分析法等存在的缺陷,在神经网络MIV法的启发下提出了MDIV法。3.经过标准数据集验证分析表明,MDIV法计算属性权重应用范围广泛,且计算结果更加符合实际;基于混合加权模糊相似矩阵的谱聚类算法较传统的谱聚类算法其计算结果更为精确;基于粒子群算法的谱聚类算法克服了对输入数据的敏感性,其计算结果精确稳定,更具科学合理性。4.针对上述算法编写了MATLAB程序。