论文部分内容阅读
聚类分析是一种无监督的学习方式,是海量数据分析的重要工具之一。对于同一数据集,使用不同的聚类算法产生的聚类结果也不同。至今,众研究学者提出了各种各样的聚类算法。基于多层次框架的聚类算法是近年来出现的一类备受关注的聚类算法,能聚类大规模且任意形状的数据,经典的算法有METIS,Graclus,FAP等。多层次聚类算法的步骤一般分为粗化、划分、细化三部分,其中粗化过程旨在逐层寻找每层数据集的代表点,以获得易于划分的小规模数据集,显然是多层次聚类框架的关键步骤。在METIS、Graclus等方法中,利用顶点和边的权重的某些准则合并顶点和边,来实现粗化,其缺点是粗化之后的小规模数据集无法准确表述原数据集的全局信息和结构。为此,本文通过定义“多层核心集”,提出一种基于多层核心集的粗化算法,并建立了相应的多层次聚类算法(Multilevel Core-sets Coarsening based ClusteringAlgorithm)。基于多层核心集的粗化可以逐层保留数据集的全局信息,其最顶层核心点的个数与聚类个数相同,每个核心点对应了一个单独的类,因此不需要经典多层次聚类框架中的划分过程,即可通过细化算法映射到原数据集,完成整个聚类过程。实验结果表明了本文提出算法的有效性。