论文部分内容阅读
海量数据对于训练传统有监督学习模型是一种巨大挑战,这是因为手动标注动态新增样本是不切实际的。此时无监督学习方法能发挥替代有监督学习方法的数据分析功能。在无监督学习中,聚类可直观地分析数据,其目标是将未标记的数据分成几类群簇,保证相似的样本聚集到同类群簇中。鉴于它的直观实际含义,聚类算法已被广泛应用于图像分割、模式识别和数据挖掘等任务。流形学习假设高维数据可以看成高维空间中的低维流形嵌入,因此很多聚类算法将原始高维数据投影到低维空间中,以得到更为有效的表达。子空间聚类将每一类群簇投影到相应的低维子空间当中,而深度聚类算法使用深度网络得到数据的深度嵌入。传统聚类算法没有使用样本间的相似性信息,不能挖掘数据的流形结构,难以在复杂样本空间上得到全局最优解。图正则聚类算法在数据的投影过程中维持样本间的相似性关系,从而在低维投影中保留数据的几何结构,有助于数据的正确分类。本文提出三种图正则聚类模型:1)图拉普拉斯相关低秩聚类模型。本文设计了一种基于F范数的迹损失并配合图拉普拉斯正则捕获数据的局部相关信息,同时利用矩阵重构得到数据的低秩表达,使群簇结构更为清晰,从而提高聚类任务的准确性。在运动分割和图像聚类任务上的实验验证了该模型的有效性。2)相关性自表达收缩聚类模型。本文使用紧凑的Schatten p范数来近似低秩约束,从稀疏和密集的表达两方面诱导相似性矩阵,同时使用自适应的收缩模式减少相似样本的偏差。在四个图像聚类任务上的实验验证了该模型的有效性。3)基于均匀流形近似的深度聚类模型。本文设计了一个两阶段的深度聚类模型以在聚类的同时考虑流形结构。在第一阶段,本文使用提出的相似性度量将相似的样本拉到一起,并将不同的样本推远;在第二阶段,本文使用Kullback-Leibler散度拟合两个提出的数据分布来增强聚类的性能。在四个图像聚类任务上的实验验证了该模型的有效性。