基于狼群算法的K-means算法及应用实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:chen1155588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当前研究者们普遍关注的一个热点问题,尤其在人工智能和数据库领域。传统意义上的数据挖掘是指,从现有的数据库的海量数据中研究、挖掘出潜在的、尚未被人知晓的有用信息的非平凡过程。随着科学技术的不断发展,在机器学习、可视化技术、人工智能、模式识别、统计学、数据库等多个领域,都需要人们基于以往的数据案例,进行分析并做出决策等。数据挖掘的意义之一就是提供决策支持,基于已有的企业数据,它能进行有效的自动化的分析、归纳、推理,实现从海量数据中挖掘出潜在的规律或模式,帮助企业决策者们及时调整市场发展规划,规避风险,进而做出正确的决策。在当前应用于计算机数据分析的各种方法中,聚类分析作为数据分析中非常重要的一类课题,也是数据挖掘中的一种关键性方法手段。聚类分析可以在海量的数据中挖掘出隐含其中的数据分布规律和数据模式,是研究分类问题中的一种重要的统计方法。它将数据对象的集合依据数据的相似度进行分类,使得相似度高的数据划为一类簇,相似度低的数据区分到不同的簇中。如果在聚类分析时,采用不同的方式手段,通常会产生不同的结果,而即使对于同样的一组数据,由不同的研究者们进行聚类的分析,所得到的簇的种类也可能不尽相同。非层次聚类分析中的K-means因其实现简单、收敛速度快的优点成为最为常用的聚类算法,它以欧式距离作为一种度量准则,在此基础之上,将实验数据划分为不同的类别。然而,聚类中心选择的不同,在极大程度上会影响K-means的聚类效果,如果只是随机地选取聚类中心,极易使算法陷入局部的最优值,无法实现最优效果。由于研究人员在宏观上对数据是未知的,所以,在聚类个数k的选择过程中,只能设置多个不同的k值,并且通过多次实验,从而来确定聚类的个数。并且不同的初始聚类中心或造成不同的初始搜索范围,而不同的初始搜索范围会形成不同的搜索区域,不同的搜索区域也会找到不同的最优解,因此,初始聚类中心的不确定使得K-means算法缺乏较好的稳定性。因此,本文主要研究以下四个方面的内容:(1)在猛狼进行更新位置更新的时候,加入猛狼的历史最优位置;(2)为了使得算法在前期拥有更好的全局搜索能力,在后期拥有较强的局部勘探能力,提出了自适应步长公式;(3)提出基于狼群算法的K-means聚类分析算法,用于优化K-means聚类算法中的参数;(4)将提出的方法在聚类分析问题上进行应用,并和其它同类方法进行对比研究。
其他文献
论述了目前市售的集中运动饮料,哪种比较适合小轮车运动员在训练和比赛中饮用,以达到补充体能,延缓疲劳的目的。
随着大数据新兴技术的发展,传统扶贫开发模式正面临着技术落后难以开展有效的精准扶贫的发展困境。身处大数据时代的我们,应该运用大数据思维,用全体数据代替随机样本,让数据
军工企业与一般国有企业不同,治理军工企业,应依据其特殊性,遵循分类改造与区别对待、国防利益与经济利益相统一、兼顾信息披露的公开性与保密性、分权监管与特别管制、利益
明水地区位于甘肃北山北带,区域化探资料显示,区内下石炭统中酸性火山岩出露区以Au、Cu、W、Mo、Sn为特色的化探异常带规模大、强度高、有明显浓集中心,在部分异常内已先后发
首先回顾了新中国的犯罪历史,指出其经历了5个犯罪高峰期.其次,从31个省级行政区,9个经济区和3个经济地带分析了犯罪的区域差异性,并阐述了中国犯罪的现状特征.最后采用最小
本文介绍何永生主任医师治疗肾性血尿的临床经验。归纳总结了何永生主任医师对肾性血尿的中医病因病机认识以及临床治疗基本思路,同时对其用药经验做了介绍。
我国有大量常规选矿方法难以利用的铁矿石资源,实现其利用可增加我国铁矿石资源可利用量,缓解铁矿石供应紧张的局面,提高铁矿石供应安全的保障程度。磁化焙烧-磁选是难选铁矿
服务业竞争力已成为我国各个城市竞争力的重要因子,标志着城市的发展水平。本文根据多元统计中的因子分析和聚类分析的方法,对四川省18个地级城市2004年的服务业竞争力水平进
在我国市场化进程中,地区经济的发展是极其不平衡的.从第三产业发展程度、对外开放程度、非公有制经济发展程度、政府适应市场化程度和农村社会保障程度等方面设置8个指标(X1
通过数值模拟的方法,详细研究了花瓣稳燃器的回流区特性,给出了花瓣稳燃器回流区的三维立体形状图和回流区长度、宽度、回流量、最大回流速度等特性参数,并对衡量煤粉颗粒与