论文部分内容阅读
人工智能理论和技术飞速发展,其中最重要的领域之一,数据挖掘和机器学习,正在不断地影响和改变人们的工作和生活。迄今为止,机器学习已被应用到很多的领域,例如电商的CRT预估,股票的量化交易,文本或声音信息的处理,图像识别与自动驾驶,个性化推荐等等。这些技术无疑会使我们的生活更加便捷。在众多应用领域中,聚类分析是一类重要的应用技术。2014年出现的密度峰值点快速搜索聚类算法(DPC)是一种新颖的聚类算法,它利用样本的密度和不同样本间的距离实现聚类,整个过程简单高效。但是,传统DPC算法在识别不同密度类簇、发现任意形状的类簇和噪声去除方面存在不足。本文结合K近邻法的思想,针对这两个不足,提出了两种DPC算法的改进算法。论文的主要工作如下:(1)针对传统DPC算法无法有效识别不同密度类簇的不足,利用K近邻图,提出一种基于K近邻图的密度峰值点快速搜索聚类算法(KG-DPC)。改进算法定义了一种新的密度估计函数,计算样本的K近邻样本集合与K近邻距离集合,通过给定样本的K近邻距离估计样本密度。再计算样本距离,使用决策图选择聚类中心,根据改进的样本分配法则进行聚类。最后,根据K近邻集合完成二次聚类。实验结果表明,KG-DPC算法相较于DPC算法在区分不同密度类簇方面有明显提升,在对人脸数据集聚类的实验中表示其准确率优于DPC算法。(2)针对DPC算法识别噪声数据和难以发现任意形状类簇的不足,结合K近邻方法和DBSCAN算法,提出基于噪声去除的密度峰值点快速搜索聚类算法(NR-DPC)。NR-DCP算法使用K近邻距离集合估计样本噪声指标,对数据集进行分层,选择密度较高样本。再使用噪声指标估计样本密度,计算样本距离,使用决策图选择聚类中心。最后使用DBSCAN算法策略从密度最高的聚类中心为起点扩张类簇。实验结果表明,NR-DPC算法在大多数的指标中都优于DPC算法。对文本试题数据的聚类结果显示,NR-DPC算法的准确率提升明显,具有实际应用意义。