论文部分内容阅读
在模糊聚类分析中,模糊c-均值算法(FCM)应用十分广泛。作为一个无监督的聚类算法,FCM算法在执行前需要给定模糊聚类数c和模糊指数m。这两个参数选取的好与坏直接影响到聚类结果。如果模糊聚类数c选取不当,得到的聚类结果可能与数据的真实结构相违背,如果模糊指数m选取不当,FCM算法就得不到理想的聚类结果。不论参数c和m哪个改变一点都有可能使聚类结果差之千里。目前,人们大都分开来对两个参数进行优化研究。本文将把模糊聚类数c和模糊指数m放在一起,同时进行优化选取。本文将用遗传算法来对FCM算法的参数c和m进行优化。为了实现同时优化的目的,主要进行了以下几点设计。首先,把两个参数编码到一个二进制基因链中,让基因链的前一部分控制模糊聚类数c,后一部分控制模糊指数m;第二方面,在适应度函数的构建过程中,以一些著名的聚类有效性函数为基础;第三方面,为了保证模糊聚类数c总是不小于2(变异过程可能使得c小于2),在计算基因链的适应度函数值时,对参数c进行检测;最后,采用限位的两点交叉方法,以保证控制参数c的基因链和控制参数m基因链,在遗传优化过程中互不影响(不进行基于交换)。MATLAB仿真实验证明,得到的两个参数作为FCM算法的初始值时,能够得到好的聚类结果。此外,本文还对模糊线型聚类(FCL)算法进行了研究。从FCL算法的推导过程中发现,在高维空间中算法得到的聚类中心在理论上(方向向量有可能不唯一)有不唯一的可能(未能解决)。同时,又从线型聚类中心的相似性方面考虑,定义了一种线型聚类中心的距离公式,并在此距离公式基础上构建了针对FCL算法的聚类有效型函数。