论文部分内容阅读
数据挖掘是信息管理领域中一个重要的研究课题,数据挖掘技术已经广泛地应用到很多行业中。聚类分析是数据挖掘中的核心技术之一,目前聚类算法中应用最广泛的k-means算法虽然简明、实用,但它没有对样本特征进行优化,其有效性很大程度上取决于数据点的分布情况,当样本边界为线性不可分或者样本分布为非高斯分布时,聚类效果较差,无法达到高精确度的聚类要求;而核函数的引入增加了对样本特征的优化,通过将样本点从输入空间映射到高维特征空间,将非线性学习问题转化为线性学习问题,从而实现了更为准确的聚类。而目前核聚类算法中的硬划分方法缺乏健壮性,模糊聚类方法又存在需要人为定义模糊参数等不足,因此有待于进一步改进。 本文借助于近似极大值函数的凝聚函数,提出一个既为软聚类格式,又无须选择模糊参数的核k-凝聚聚类算法;并且针对现实中存在大量的分类属性和混合属性数据而k-prototype和模糊k-prototype算法在处理分类型属性和混合属性上的不足,本文又将类属性分解的方法与核凝聚聚类算法相结合,将算法推广到类属性与混合属性,使算法更具有通用性。 本文首先对聚类和核方法的背景知识以及核函数相关理论进行阐述,在说明现有算法不足基础上分别提出了适用于数值属性以及分类和混合属性的核k-凝聚聚类算法,并通过Matlab编程进行数值实验,证明了该算法在聚类的准确性、稳定性、健壮性等方面取得了一定的改进。最后将该算法应用到某生发保健品连锁店客户细分的管理实践中,为他们针对不同细分市场采取不同营销策略提供了指导和依据。