论文部分内容阅读
聚类分析能够通过划分数据得到蕴含的有效信息,现在已经广泛应用于交通、工业等相关领域。而传统的二支聚类表示不能明确地表示那些不确定类簇归属的对象。三支聚类表示采用两个集合,通过核心域和边缘域来刻画类簇可以克服这个问题。但是目前的聚类算法大部分只能处理静态数据集,这种静态的处理方式显然不适用于处理动态数据集。增量聚类算法是行之有效的处理动态数据的一种方法。然而针对属性增量数据的聚类研究还较少。因此,针对属性增量数据的聚类问题,本文基于粒计算、三支聚类等方法展开了如下研究工作。针对属性增量数据聚类问题,本文提出了一种多粒度增量属性的聚类算法。该算法通过密度峰值算法获得初始聚类结果;然后对于某一时刻新增的属性粒集合,将其与原有属性粒结合,形成多粒度层;在不重复聚类的前提下,通过对象的邻域信息结合原有的聚类结果动态地更新聚类结果,直至没有新的属性粒集合加入为止。针对对象含有不确定信息的属性增量数据聚类问题,本文将上述方法进行改进提出了基于多粒度的增量属性三支聚类算法。该算法首先通过密度峰值算法获得三支表示的初始聚类结果;然后对于某一时刻新增的属性粒集合,先过滤冗余属性,将剩余属性加入到原有属性粒集合中,并判断边界点与其他非边界点的平均距离;随后统计并计算对象的邻域距离信息、邻域归属类簇信息(邻域对象属于类簇的核心域/边缘域),结合原有的聚类结果以及马氏距离等方法动态地更新原有的类簇归属;最后利用三支思想将类簇归属划分为核心域与边缘域,随后判断类簇数目变化情况;直至没有新的属性粒集合加入为止。本文在Iris、Statlog和Waveform等10个UCI的真实数据集对所提出的算法与密度峰值聚类在相同粒度上的结果进行了对比分析验证,实验结果表明本文提出的方法在指标NMI、RI、Accuracy上大多数情况下优于对比算法,表明本文的研究工作对于处理属性增量数据的问题是有效的。