论文部分内容阅读
随着互联网的飞速发展,数据呈现爆炸式增长,数据维度也随之增高,本文基于传统聚类算法思想,针对当今数据海量且高维的特征,在MapReduce环境下,提出一个基于密度的高维数据聚类算法,以此提高大量高维数据聚类的速度和质量。为了能更有效的对大数据聚类,本文提出两种大数据聚类算法:基于密度和信息熵的聚类算法(DBSCAN Entropy-based,ENDBSCAN)和动态确定最优聚类数量的聚类算法(The Optimal Number of Clusters ENDBSCAN,OP-ENDBSCAN)。ENDBSCAN以信息熵作为聚类时主要考虑的因素,避免传统的DBSCAN算法需要人为定义Eps(邻域半径)和Minpts(密度阈值)两个参数的缺陷。同时为了解决大数据的数据量巨大并且数据维度较高的问题,提出一个数据预处理方法,该方法利用对数据维的切分将数据分块,分块后交给不同计算机节点处理,从而尽量利用计算机节点的计算能力,提高该聚类算法的运行效率和扩展性。OP-ENDBSCAN通过对ENDBSCAN进行深入分析,发现该算法需要人为确定聚类数量的缺陷,针对这个问题,提出了动态确定最优聚类数量的算法和评价聚类质量指标,利用该算法提高聚类质量。为了进一步提高算法的运行效率,将ENDBSCAN的数据预处理阶段和合并阶段应用在MapReduce的编程模型上,从而提高了算法的运行效率。本文利用KDDCUP1999等数据集进行实验,评估所提出的算法在不同参数设置下的有效性。实验表明,ENDBSCAN相比于传统的DBSCAN具有更高的准确率和高效性,在进行聚类时,OP-ENDBSCAN较ENDBSCAN具有更高的准确性和扩展性。同时,ENDBSCAN和OP-ENDBSCAN均能够在不同规模的数据集下表现出较高的效率。