数据挖掘算法的研究及其在客户细分中的应用

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:tanscuc2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来数据挖掘技术引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。在众多的数据挖掘方法中,聚类的应用非常广泛,它是数据挖掘中的一个重要研究领域。 k-means算法是聚类算法中应用较为广泛的一种算法,它是一种基于划分的聚类算法,具有算法简单且收敛速度快的特点,但它的一个弱点是对初始值非常敏感而且容易陷入局部极小值,而遗传算法是一种通过模拟自然进化过程搜索最优解的方法,其显著特点是隐并行性和对全局信息的有效利用能力,因此把遗传算法和k-means聚类方法结合起来产生混合算法,它既能发挥遗传算法的全局寻优能力,又能兼顾k-means算法的局部搜索能力,从而更好地解决聚类问题。 本文系统地研究了数据挖掘和聚类分析的基本知识,分析对比了现有的聚类算法的优缺点,并总结应用领域对聚类分析算法的要求,重点阐述了遗传算法及k-means算法的基本理论,探讨了遗传算法的基本要素,特点及存在问题,并针对标准遗传算法收敛速度慢和“早熟”现象提出了一种改进的自适应遗传算法,通过对测试函数的试验,证明了改进后的遗传算法在全局优化和快速收敛能力上有较大的提高。在此基础上,然后将改进的自适应遗传算法应用于k-means算法中来解决k-means算法容易陷入局部极值,聚类结果对初始聚类中心的选取有着很大敏感性的问题,详细介绍了改进算法的具体实现,并通过两组标准数据集iris和wine对比分析了传统k-means算法和改进的k-means算法,实验结果表明引入遗传算法的k-means算法具有良好的聚类效果,提高了聚类的准确性。 在最后,本文将改进的聚类技术应用于客户细分的实例中,通过企业的实际数据验证了利用本文算法对企业客户进行聚类可以避免初始值对聚类结果的影响,并且能搜索到较佳的最优解,获得良好的客户划分结果,更好地为客户提供个性化服务,从而提高企业的利润,具有一定的实际意义。
其他文献
乳腺癌是妇女常见恶性肿瘤之一,早期诊断和早期治疗是降低乳腺癌患者死亡率的关键。微钙化是乳腺癌早期的一个重要标志,微钙化点在乳腺X线影像上表现为独立或成簇分布的亮点,
随着数字技术和Internet技术的不断发展,视频数据得到了广泛的应用。例如视频点播、收费电视节目、以及视频会议等,这些应用对于视频数据的安全性都有不同程度的要求。普通的
目前,医学图像处理中的医学图像分割方法是一个热门课题,这个领域的研究和开发工作已经有了很多年的发展历史,众多的图像分割算法已经被相当多的学者提出。但是纵观各种的图
脂肪肝是由肝脏内脂肪堆积过多而导致的病变,若不及时控制,则可能引发肝硬化、肝癌甚至导致死亡。临床上常采用B超检查方法,医生肉眼进行脂肪肝的诊断,这种经验的、主观的诊
随着信息技术和计算机网络的发展,人们的日常生活和计算机网络的关系越来越密切。然而,随着信息技术知识的普及,网络也随之变的不安全,攻击工具与手法日趋复杂多样。防火墙这
我国是农业大国,蔬菜、水果产业分别位居种植业中的第二、三大产业。利用机器视觉技术,自动化对蔬菜和水果的质量进行评价,可以提高果蔬分级的客观性,减轻从业人员的劳动强度
神经网络作为一门新兴的信息处理科学,是对人脑若干基本特性的抽象和模拟。它是以人脑工作模式为基础,研究自适应及非程序的信息处理方法。这种工作机制的特点表现为通过网络
随着Web服务技术的迅速发展,网络上基于Web服务的应用也越来越多,但是现有的服务大都是单个且功能简单的服务,难以满足复杂业务流程集成需要,组合现有的Web服务能够克服以上
随着多媒体技术以及Internet网络的发展,图像数据迅速膨胀。如何充分利用已有数据使之避免沉没在信息的沼泽里成为急需考虑的问题,这就要准确、快速地查找所需数据。图像检索
随着中文分词技术研究的不断深入,如何实现分词算法中语义信息的处理成为当今研究热点之一。本文结合特定领域的领域性以及语义网本体的结构特点,对基于词典的双向最大匹配算