论文部分内容阅读
数据挖掘是当前研究者们普遍关注的一个热点问题,尤其在人工智能和数据库领域。传统意义上的数据挖掘是指,从现有的数据库的海量数据中研究、挖掘出潜在的、尚未被人知晓的有用信息的非平凡过程。随着科学技术的不断发展,在机器学习、可视化技术、人工智能、模式识别、统计学、数据库等多个领域,都需要人们基于以往的数据案例,进行分析并做出决策等。数据挖掘的意义之一就是提供决策支持,基于已有的企业数据,它能进行有效的自动化的分析、归纳、推理,实现从海量数据中挖掘出潜在的规律或模式,帮助企业决策者们及时调整市场发展规划,规避风险,进而做出正确的决策。在当前应用于计算机数据分析的各种方法中,聚类分析作为数据分析中非常重要的一类课题,也是数据挖掘中的一种关键性方法手段。聚类分析可以在海量的数据中挖掘出隐含其中的数据分布规律和数据模式,是研究分类问题中的一种重要的统计方法。它将数据对象的集合依据数据的相似度进行分类,使得相似度高的数据划为一类簇,相似度低的数据区分到不同的簇中。如果在聚类分析时,采用不同的方式手段,通常会产生不同的结果,而即使对于同样的一组数据,由不同的研究者们进行聚类的分析,所得到的簇的种类也可能不尽相同。非层次聚类分析中的K-means因其实现简单、收敛速度快的优点成为最为常用的聚类算法,它以欧式距离作为一种度量准则,在此基础之上,将实验数据划分为不同的类别。然而,聚类中心选择的不同,在极大程度上会影响K-means的聚类效果,如果只是随机地选取聚类中心,极易使算法陷入局部的最优值,无法实现最优效果。由于研究人员在宏观上对数据是未知的,所以,在聚类个数k的选择过程中,只能设置多个不同的k值,并且通过多次实验,从而来确定聚类的个数。并且不同的初始聚类中心或造成不同的初始搜索范围,而不同的初始搜索范围会形成不同的搜索区域,不同的搜索区域也会找到不同的最优解,因此,初始聚类中心的不确定使得K-means算法缺乏较好的稳定性。因此,本文主要研究以下四个方面的内容:(1)在猛狼进行更新位置更新的时候,加入猛狼的历史最优位置;(2)为了使得算法在前期拥有更好的全局搜索能力,在后期拥有较强的局部勘探能力,提出了自适应步长公式;(3)提出基于狼群算法的K-means聚类分析算法,用于优化K-means聚类算法中的参数;(4)将提出的方法在聚类分析问题上进行应用,并和其它同类方法进行对比研究。