论文部分内容阅读
随着定位设备普及、定位卫星精确性提高,各类基于位置服务的应用大幅增加,位置数据的复杂程度与数据量也大幅增大。对于位置数据的数据采集、数据处理与分析、数据存储和数据可视化等方面的研究有着广泛的学术和应用价值。对于位置大数据的聚类分析可以从大量数据中挖掘得到位置数据的规律,从而获取有价值的信息。而传统串行聚类算法通常难以高效地处理大规模数据,因此聚类算法的并行化研究逐渐成为研究热点。本文基于MapReduce并行化框架对聚类算法进行并行化研究和改进,利用并行化处理框架提高位置大数据聚类效率同时也保证聚类的质量。本文的主要工作和成果如下:1.针对位置大数据的处理效率问题,本文提出基于MapReduce的强连通网格聚类算法。首先基于MapReduce对改进的DBSCAN算法进行并行化研究,通过并行化步骤得到每个数据子集的聚类结果。然后在分析网格与簇的关系、定义网格簇和网格簇的连通、强连通概念基础上,通过计算网格簇之间的连通权值矩阵,并对具有强连通关系的网格簇进行聚合,构成基于MapReduce的强连通网格聚类算法,可实现位置大数据集的高效聚类。实验分析表明,基于MapReduce的强连通网格聚类算法对位置大数据的处理具有较高的效率和较高的聚类质量。2.针对密度聚类算法的参数敏感问题,提出基于MapReduce的最优2ε-邻域聚类算法。首先基于传统的密度聚类算法ε-邻域的定义,提出最优2ε-邻域概念,在此基础上用优化算法获取每个数据对象合适的ε值,形成每个数据对象的最优2ε-邻域集,实验结果表明通过该算法获取的ε值更合理且该算法是一个自适应过程。然后在MapReduce框架下实现最优2ε-邻域聚类算法,通过相对聚合度的计算对每个数据对象的最优2ε-邻域集形成的微簇进行聚合,得到最终聚类结果。实验结果表明基于MapReduce的最优2ε-邻域聚类算法在处理位置大数据时也有较高的聚类质量。本文主要对MapReduce工作机制和聚类算法进行研究,基于MapReduce框架对聚类算法进行优化和并行化,然后对位置大数据进行分析和处理,获得了较高的处理效率和质量。而在聚类算法的并行化任务分解与合并等方面还可以作进一步研究,比如如何对数据进行分块能使聚类效率更高,如何对数据子集的结果进行聚合能保证高效率的同时有更好的聚类质量。