论文部分内容阅读
聚类是数据挖掘的重要技术之一,用于发现数据中未知的分类。K-means算法是基于划分的聚类算法中的一个典型算法,K-means算法有操作简单、速度快、能处理大数据等优点,但是,该算法具有同等对待各属性的缺点。本文对 K-means算法进行赋权研究,主要内容如下: 1.在分析和研究聚类分析和K-means算法的基础上,分别建立了基于CRITIC法加权K-means算法和基于Gini指数加权K-means算法。在实验中,与传统K-means算法进行对比,结果显示了所给改进算法是可行的。 2.结合主观赋权法和客观赋权法对K-means算法进行综合赋权。首先,在已经归一化的数据基础上,运用CV-K-means法确定判断矩阵,根据AHP法计算各属性的主观权重。然后,采用CRITIC法计算各属性的客观权重。最后,根据差异系数法计算组合权重系数,得到各属性的综合权重,从而建立了基于AHP和CRITIC综合赋权的K-means算法。实证研究结果表明:该算法比基于 CRITIC法加权 K-means算法以及传统 K-means算法在聚类精度和聚类熵值都有很大的提高。 3.结合两种客观赋权法对K-means算法进行综合赋权。首先,对数据进行归一化处理,利用 Gini指数法计算各属性的权重。然后,采用 CRITIC法计算各属性的权重。最后,建立求解多属性决策问题属性权重的优化模型,对模型的组合系数进行求解,从而建立了基于Gini指数和CRITIC综合赋权的K-means算法。实证研究结果表明:该算法的聚类结果比基于Gini指数加权K-means算法和传统K-means算法效果好。 4.将本文建立的K-means算法应用于实际的数据中。首先,将改进算法应用于36个大中城市居民消费价格指数,分别从聚类准则函数和聚类密集性对聚类结果进行了分析。然后,将改进算法应用于我国国内生产总值上,分别从Dunn指标和聚类结果对聚类效果进行了分析。通过改进算法在实际数据中的应用,说明了本文改进算法的优势。