论文部分内容阅读
聚类问题一直是数据挖掘领域的一个重要研究方向。虽然传统的划分聚类算法方法简单、执行速度快且效率高,但是由于其迭代法和爬山法的本质,使得算法容易陷入局部最优而得不到全局最优解。而且算法需要人为预先指定类别个数,同时对于不同属性的数据效果差异很大,即算法的通用性不高。近年来,随着演化计算的不断发展,聚类算法同演化计算的结合日益广泛。利用演化计算随机、最优化全局搜索特征,同传统的聚类算法形成有效的互补,很好的解决了传统聚类算法易陷入局部最优而得不到全局最优解的不足。但是对于传统算法的另外两个不足,现有的演化聚类算法仍然没有找到行之有效的解决方法。本文在现有的演化聚类算法的基础上,引入多目标优化策略,采用变长染色体编码方式,提出了一种新颖的聚类方法——基于多目标演化算法的动态聚类方法,较好的解决了现有算法的不足。本文的主要工作和特色如下:
(1)采用变长染色体编码方式使得算法可以进行动态聚类。各个染色体长度的不同意味着各个染色体所包括的类别数目的不同,这样在编码的同时可以选择不同的类别数目而不相互干扰,并在演化过程中同时完成对类别个数以及每个类的优化,实现了不需要预设类别数目的动态聚类。
(2)将多目标优化策略引入聚类方法。算法采用多个适应度函数而不是传统的单个适应度函数,将聚类问题视为多目标优化问题。使用多个适应度函数使得算法对于不同属性的数据集都具有良好的聚类效果,提高了算法的通用性。
(3)基于GapStatistic理论,设计了一种从最优解集(ParetoOptimalSet)中挑选“最优解”的启发式选择策略。在选择过程中,首先寻求尽可能最完整的ParetoFront而不是缩减ParetoFront的大小,然后使用领域知识将集合逐步缩减到某个单一的解,即所要寻求的“最优解”。