论文部分内容阅读
随着数据资源的爆炸式增长,数据挖掘已成为人们获取有用信息的不可缺少的数据分析方法。无监督的模糊聚类分析作为数据挖掘的一种有效工具,已经很好地应用于信息检索、模式识别、数据分析、图像处理等各个领域。本文以模糊聚类算法的优化和应用为研究内容。在所有的模糊聚类算法中,基于目标函数的模糊C均值(Fuzzy C-means, FCM)聚类算法因其局部搜索能力强且收敛速度快的特点而被广泛应用。但是,该算法主要存在两个缺陷:第一,隶属度和为1的概率约束条件易造成它对噪声和孤立点敏感;第二,它本质上是一种局部爬山算法,这使得它对初始聚类中心敏感且容易陷入局部极值。针对FCM聚类算法存在的问题,本文通过结合改进的遗传算法(Genetic algorithm,GA)与核技术对FCM聚类算法进行优化处理,提出一种基于GA优化的核FCM聚类算法(GA-KFCM)。首先,设计一种改进的自适应遗传算法。该算法基于实数编码方式,采用非线性排序选择方法,自适应交叉、变异策略,以及最大进化代数准则和种群平均适应度收敛准则等。然后,采用一种基于核的FCM聚类算法(KFCM)。利用核函数改变FCM聚类算法中的距离函数来定义目标函数,从而改进FCM算法的概率型约束条件。最后,将本文设计的改进的自适应遗传算法与KFCM聚类算法相结合,提出了一种GA-KFCM算法。该算法利用外层改进的自适应GA优化初始聚类中心,然后,采用KFCM算法指导分类,从而改善FCM算法的聚类性能。本文通过Matlab进行实验和仿真,使用IRIS和WINE数据集测试FCM算法、KFCM算法以及GA-KFCM算法的性能。实验结果表明,本文所提出的GA-KFCM算法有效地克服了FCM算法的缺陷,极大地提高了聚类性能。在此基础上,将GA-KFCM聚类算法用于文本分类,应用效果验证了本算法的有效性。