C-均值聚类算法的改进研究

被引量 : 0次 | 上传用户:benson55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督的学习方法,是数据挖掘领域进行数据处理的重要分析工具和方法。聚类的目标是把一个无类别标记的数据集按某种准则划分成不同的类,使得同一类中数据尽可能相似,而不同类间数据相似性尽可能小。聚类在商业、金融、图像处理、信息检索等领域,都得到了有效的应用。聚类分析的研究主要集中在聚类算法上,其最终目标是产生性能好而且实用的聚类算法。C-均值聚类算法是一种典型的基于划分的方法,包括K-均值算法(硬C-均值聚类算法)和模糊C-均值聚类算法。该方法的主要优点是,算法思想简单易行、快速而高效;但是该方法也存在其固有的缺陷:要求预先给定聚类个数;容易陷入局部极小值而得不到全局最优解;初始中心的选择对聚类结果有很大影响;对孤立点和噪声比较敏感等。对聚类算法的优化研究将不仅有助于算法理论的完善,更有助于算法的推广和应用。本文研究了K-均值聚类算法和模糊C-均值聚类算法,总结其优缺点,并针对上述算法对初始聚类中心的敏感性、图像分割运算代价大等问题,提出了两种改进算法。本文的主要研究工作包括以下两个方面:(1)传统K-均值聚类算法由于对初始聚类中心、孤立点和噪声的敏感性,往往导致聚类结果不稳定、准确率低。针对以上问题,利用分类领域中的特征选择及特征加权方法,提出了一种改进的特征加权K-均值聚类算法。该算法首先对数据进行预处理,并基于数据样本的分布特点选取初始聚类中心,然后设计特征加权的K-均值聚类算法。实验结果证明,所提出的算法能产生质量较高的聚类结果。(2)选取Ohta等人提出的彩色特征集中的第一个分量作为图像像素的一维特征向量,用来替代经典模糊C-均值聚类图像分割中的像素,大大降低了运算量。基于粗糙集理论,求出初始聚类中心与聚类个数。选用特征距离,因为它对数据特征空间结构无特殊要求。使用基于以上思想的改进的模糊C-均值聚类算法对样本数据进行聚类,从而实现对彩色图像的快速自动分割。实验表明,该图像分割算法具有分割精度、准确度高,运算代价小,收敛速度快等优点。
其他文献
随着传统能源的日益紧缺,新能源的开发与利用得到世界各国的关注。全球金融危机给传统能源市场带来了的一定冲击,却给新能源发展创造了新一轮的契机。目前,政府正着力优化产
<正>只有靠勇敢地打拼,才能收获安稳的幸福。妻子远赴日本东京,陪伴博士毕业后留校当助教的老公。东京消费昂贵,老公事业刚起步,她的到来令原本拮据的生活更加捉襟见肘。一个
期刊
<正>入冬后,一些流言让那些安装了地暖的人们颇为不安:地暖会造成白血病、引发癌症、诱发心血管疾病,还会造成白内障等视力问题,原因在于供暖辐射。地暖真的有如此大的危害吗
机电设备的正常运行不仅是提高企业经济效益的保障,而且是企业维修技术高低的展现。机电一体化设备制造技术不断提高,使得其故障诊断技术也突飞猛进,利用机电一体化设备故障
孙子是我国古代著名的军事家,他所创作的《孙子兵法》是我国最早的一部军事著作,它揭示了战争的一般规律,古今中外的众多战争都在借鉴其著作的基础上取得了最终胜利。《孙子
目的:测定强力救心滴丸中蟾酥的主要成分华蟾酥毒基和酯蟾毒配基含量。方法:样品经甲醇超声处理提取,采用高效液相色谱法测定,色谱柱为 Alltima C18色谱柱(4.6mm×250mm,5μm);
简介了蒸汽系统管架设计的几方面要素:管道走向、管道跨度、架顶布置、安装宽度、管架荷载、最小垂直净距、相关管架间的关系、管架支撑面的宽度。侧重介绍了各要素应注意的主
水资源是不可替代的基本资源。水资源问题是21世纪人类面临的最为严重的资源问题。水资源调蓄能够使区域水资源得到合理的利用,是解决水资源短缺问题的有效措施之一。遥感技
区域旅游是当代旅游业发展的一个显著特征,也是改革开放30多年来中国旅游业迅速崛起的一种重要形式。空间形态上的跨区域合作,冲破了传统行政管理体制的限制,成为市场体制下
随着经济技术的发展,我国已进入大型基础设施的大规模建设阶段,实际应用中需要监测这些长距离基础设施的健康状态,管道的泄漏,材料的断裂都伴随振动事件的发生,其振动频率范