论文部分内容阅读
近年来数据挖掘技术引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。在众多的数据挖掘方法中,聚类的应用非常广泛,它是数据挖掘中的一个重要研究领域。
k-means算法是聚类算法中应用较为广泛的一种算法,它是一种基于划分的聚类算法,具有算法简单且收敛速度快的特点,但它的一个弱点是对初始值非常敏感而且容易陷入局部极小值,而遗传算法是一种通过模拟自然进化过程搜索最优解的方法,其显著特点是隐并行性和对全局信息的有效利用能力,因此把遗传算法和k-means聚类方法结合起来产生混合算法,它既能发挥遗传算法的全局寻优能力,又能兼顾k-means算法的局部搜索能力,从而更好地解决聚类问题。
本文系统地研究了数据挖掘和聚类分析的基本知识,分析对比了现有的聚类算法的优缺点,并总结应用领域对聚类分析算法的要求,重点阐述了遗传算法及k-means算法的基本理论,探讨了遗传算法的基本要素,特点及存在问题,并针对标准遗传算法收敛速度慢和“早熟”现象提出了一种改进的自适应遗传算法,通过对测试函数的试验,证明了改进后的遗传算法在全局优化和快速收敛能力上有较大的提高。在此基础上,然后将改进的自适应遗传算法应用于k-means算法中来解决k-means算法容易陷入局部极值,聚类结果对初始聚类中心的选取有着很大敏感性的问题,详细介绍了改进算法的具体实现,并通过两组标准数据集iris和wine对比分析了传统k-means算法和改进的k-means算法,实验结果表明引入遗传算法的k-means算法具有良好的聚类效果,提高了聚类的准确性。
在最后,本文将改进的聚类技术应用于客户细分的实例中,通过企业的实际数据验证了利用本文算法对企业客户进行聚类可以避免初始值对聚类结果的影响,并且能搜索到较佳的最优解,获得良好的客户划分结果,更好地为客户提供个性化服务,从而提高企业的利润,具有一定的实际意义。