论文部分内容阅读
聚类分析是一种无监督的学习方法,是数据挖掘领域进行数据处理的重要分析工具和方法。聚类的目标是把一个无类别标记的数据集按某种准则划分成不同的类,使得同一类中数据尽可能相似,而不同类间数据相似性尽可能小。聚类在商业、金融、图像处理、信息检索等领域,都得到了有效的应用。聚类分析的研究主要集中在聚类算法上,其最终目标是产生性能好而且实用的聚类算法。C-均值聚类算法是一种典型的基于划分的方法,包括K-均值算法(硬C-均值聚类算法)和模糊C-均值聚类算法。该方法的主要优点是,算法思想简单易行、快速而高效;但是该方法也存在其固有的缺陷:要求预先给定聚类个数;容易陷入局部极小值而得不到全局最优解;初始中心的选择对聚类结果有很大影响;对孤立点和噪声比较敏感等。对聚类算法的优化研究将不仅有助于算法理论的完善,更有助于算法的推广和应用。本文研究了K-均值聚类算法和模糊C-均值聚类算法,总结其优缺点,并针对上述算法对初始聚类中心的敏感性、图像分割运算代价大等问题,提出了两种改进算法。本文的主要研究工作包括以下两个方面:(1)传统K-均值聚类算法由于对初始聚类中心、孤立点和噪声的敏感性,往往导致聚类结果不稳定、准确率低。针对以上问题,利用分类领域中的特征选择及特征加权方法,提出了一种改进的特征加权K-均值聚类算法。该算法首先对数据进行预处理,并基于数据样本的分布特点选取初始聚类中心,然后设计特征加权的K-均值聚类算法。实验结果证明,所提出的算法能产生质量较高的聚类结果。(2)选取Ohta等人提出的彩色特征集中的第一个分量作为图像像素的一维特征向量,用来替代经典模糊C-均值聚类图像分割中的像素,大大降低了运算量。基于粗糙集理论,求出初始聚类中心与聚类个数。选用特征距离,因为它对数据特征空间结构无特殊要求。使用基于以上思想的改进的模糊C-均值聚类算法对样本数据进行聚类,从而实现对彩色图像的快速自动分割。实验表明,该图像分割算法具有分割精度、准确度高,运算代价小,收敛速度快等优点。