论文部分内容阅读
"互联网+"这一新生态的提出,让数据走进了我们日常生活的方方面面。从这些无所不在的数据中提取出有用的信息,就是数据挖掘(DataMining)技术的研究内容。聚类分析是在没有任何先验信息的情况下,发现数据中潜藏的结构或者模式的过程。随着大数据时代的到来,聚类的研究对象——数据发生了质和量的变化。基于实际应用的需要,聚类分析技术又有了许多新的研究方向,如聚类集成、半监督聚类、重叠聚类、多视图聚类等。重叠聚类是在聚类过程中允许对象划分到多个簇中,其能发现数据中潜藏的重叠信息,这些重叠信息通常为在实际应用中起到桥梁或枢纽作用的关键点,具有较高的分析价值。多视图数据从不同的角度或者多种不同的信息源对同一事物进行描述,构成具有属性分割的数据,这也正是多视图聚类的研究对象。大多数重叠聚类算法致力于研究如何发现重叠聚类算法,而忽略了重叠对象与其所属的不同簇之间的相关性差异。针对这一点,本文提出了一种基于相关权重的重叠聚类算法,该算法在对数据进行多分配时,考虑对象与聚簇之间的相关权重,从而提高划分质量。在多标签学习、电影推荐等多个包含重叠信息的重叠数据集上的实验表明,与其他重叠聚类算法相比,基于相关权重的重叠聚类算法具有较好的聚类效果。由于有些多视图数据也存在数据重叠,本文在基于相关权重的重叠算法的基础上,提出了一种适用于多视图数据的重叠聚类算法。多视图数据的重叠信息可能存在于视图内,也可能存在于视图之间,因此我们认为各个视图上的聚簇结构是有差异的。该算法将样本损失函数和聚簇结构损失函数之和作为目标函数,通过引入共识聚簇结构实现多个视图上的聚簇结构进行约束和融合,最终得到一致性划分结果。实验表明,本文提出的适用于多视图数据的重叠聚类算法能够发现多视图数据中隐藏的结构,并且具有较好的收敛特性。