论文部分内容阅读
随着信息技术的发展,人类收集、存储、传输、处理数据的能力取得了飞速提升。人类社会的各个角落如商业、社会、科学、工程、医学以及日常生活等都积累了大量数据,亟需功能强大和通用的工具对数据进行有效地分析利用。机器学习和数据挖掘恰顺应了数据时代的这个迫切需求,取得巨大发展,受到广泛关注。聚类分析广泛应用于机器学习、数据挖掘、模式识别和图像处理等领域中,由此产生的聚类算法有很多种,其中,K-means聚类算法以其简洁高效以及适应性强等优点成为最广泛使用的聚类算法之一。然而,传统的K-means聚类算法却有两个相对突出的问题:一个是初始聚类中心的选取问题,另一个就是聚类数目k的确定问题。针对初始聚类中心的选取问题,本论文在Rahman的Sum Score算法基础上改进提出一种新的基于主成分分析(Principal Components Analysis,PCA)的K-means初始聚类中心优化算法。该方法使用主成分分析将原始多维数据降维为一维数据,接着将一维数据按升序排列,其次将排序后的一维数据分成k个子集,然后通过一维数据和多维数据的对应关系将多维数据分成k个子集且求出这k个子集的中心,最后把原始多维数据中分别距离k个子集中心最近的k个数据点作为初始聚类中心。通过在人工模拟数据集和UCI真实数据集上与其他优化算法进行比较,实验结果表明新算法能显著提高聚类质量。针对如何确定聚类数k这个问题,在基于主成分分析的K-means初始聚类中心优化算法的基础上提出一种全新的基于潜在稳定性的K-means最佳聚类数确定方法。该方法利用数据集的潜在稳定性,通过两次选取不同的初始聚类中心进行聚类,然后比较两次聚类结果的异同进而得到最佳聚类数。通过在UCI真实数据集上与基于聚类有效性内部评价指标确定最佳聚类数的方法进行对比实验,结果表明新方法更能准确地得到正确的聚类数。