K均值聚类算法初始聚类中心的选取与改进

被引量 : 25次 | 上传用户:ganggang821010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现(Knowledge Discovery in Database)。数据挖掘一种新兴的交叉的学科技术,涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领域。分类、聚类、关联规则是数据挖掘技术三个主要的研究领域。在数据挖掘的三个主要研究领域中,聚类是其中一个重要研究领域,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析是基于物以类聚的思想,将数据划分成不同的类,同一个类中的数据对象彼此相似,而不同类中的数据对象的相似度较低,彼此相异。目前,聚类分析已经广泛地应用于模式识别、数据分析、图像处理以及市场研究等。聚类算法是聚类分析的重点研究内容,目前主要有五种聚类算法:基于划分的聚类算法、基于网格的聚类算法、基于密度的聚类算法、基于层次的聚类算法、基于模型的聚类算法。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法,该聚类算法的最大的优点就是操作简单,并且K均值聚类算法的可伸缩性较好,可以适用于大规模的数据集。但是K均值聚类算法一个最主要的缺陷就是:算法随机选取初始聚类中心,聚类结果往往会陷入局部最优解。论文针对此缺点提出了两种改进的聚类算法。论文在对现有聚类算法进行详细的分析和总结基础上,针对K均值聚类算法随机选取初始聚类中心的不足之处,提出了基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法。对初始聚类中心进行选取,然后根据初始聚类中心不断迭代聚类。两种改进的聚类算法都根据一定的原则选择初始聚类中心,都避免了K均值聚类算法随机选取聚类中心的缺点,从而避免了聚类陷入局部最小解,实验表明,基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法能够提高聚类的稳定性与准确率,相比较于其他聚类算法,基于网格的赫夫曼树聚类算法应用在大数据集上能够大幅地提高聚类的执行效率。
其他文献
广告符号传播是发掘广告信息的内涵并进行编码解码的公共沟通活动。本文在文化语境的框架下,关注广告传播的文化认同效果,通过案例分析和逻辑梳理,解析了广告符号在编码和解
外出务工人员不断回流创业为新农村建设注入新的动力。文章首先对外出务工人员在新农村建设中的重要作用进行陈述,然后分析了回乡创业可能存在的风险,最后指出政府有必要从全
以结构主义理论为原点,分析意义产生的本质机制,进而探讨品牌传播过程中视觉符号意义生成的关系结构,并从而得出结论:视觉符号传播时意义失焦,单纯品牌、产品的视觉符号无法
基于目前高职院校硬件投入有余,而软实力不足的现实问题,提出在培养学生时应该素养和技能并举并以焊接专业的教学为突破口,尝试了几种教学策略,供探讨。
可持续发展是全球发展的共同目标,清洁的可再生能源必将成为21世纪的重要能源。住宅建设已经成为地球森林资源、淡水资源的第一消耗大户,同时也是能源消费第一大户。因此,住
《联合早报》是海外最具权威性的华文报纸,有较强的国际影响力。它对于我国西部民族关系类事件的舆论引导,直接关系到我国能否争取到海外华人以及"中立方"的支持,能否提升西
<正>大寨是太行山深处的一个不大的村庄。因为在1960年在中华大地兴起轰轰烈烈的"农业学大寨"运动,大寨名扬全球,农村实行"包产到户"以后,大寨逐渐在人们的视野里消失
<正>营销者说由于中信托管多元化的业务形态,我们的产品种类较多,且需求各异。2013年,中信托管将根据不同的产品与业务需求,有针对性地选择传统媒体与数字媒体,使二者有机组
针对目前电力市场竞争日益激烈,电力施工企业面临负担沉重、技术装备严重老化、人才流失严重、经营生产困难等问题。提出落实科学发展观,以改革促发展,超前战略策划,增强成本