基于MapReduce的位置大数据聚类算法的研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:plbplbplb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着定位设备普及、定位卫星精确性提高,各类基于位置服务的应用大幅增加,位置数据的复杂程度与数据量也大幅增大。对于位置数据的数据采集、数据处理与分析、数据存储和数据可视化等方面的研究有着广泛的学术和应用价值。对于位置大数据的聚类分析可以从大量数据中挖掘得到位置数据的规律,从而获取有价值的信息。而传统串行聚类算法通常难以高效地处理大规模数据,因此聚类算法的并行化研究逐渐成为研究热点。本文基于MapReduce并行化框架对聚类算法进行并行化研究和改进,利用并行化处理框架提高位置大数据聚类效率同时也保证聚类的质量。本文的主要工作和成果如下:1.针对位置大数据的处理效率问题,本文提出基于MapReduce的强连通网格聚类算法。首先基于MapReduce对改进的DBSCAN算法进行并行化研究,通过并行化步骤得到每个数据子集的聚类结果。然后在分析网格与簇的关系、定义网格簇和网格簇的连通、强连通概念基础上,通过计算网格簇之间的连通权值矩阵,并对具有强连通关系的网格簇进行聚合,构成基于MapReduce的强连通网格聚类算法,可实现位置大数据集的高效聚类。实验分析表明,基于MapReduce的强连通网格聚类算法对位置大数据的处理具有较高的效率和较高的聚类质量。2.针对密度聚类算法的参数敏感问题,提出基于MapReduce的最优2ε-邻域聚类算法。首先基于传统的密度聚类算法ε-邻域的定义,提出最优2ε-邻域概念,在此基础上用优化算法获取每个数据对象合适的ε值,形成每个数据对象的最优2ε-邻域集,实验结果表明通过该算法获取的ε值更合理且该算法是一个自适应过程。然后在MapReduce框架下实现最优2ε-邻域聚类算法,通过相对聚合度的计算对每个数据对象的最优2ε-邻域集形成的微簇进行聚合,得到最终聚类结果。实验结果表明基于MapReduce的最优2ε-邻域聚类算法在处理位置大数据时也有较高的聚类质量。本文主要对MapReduce工作机制和聚类算法进行研究,基于MapReduce框架对聚类算法进行优化和并行化,然后对位置大数据进行分析和处理,获得了较高的处理效率和质量。而在聚类算法的并行化任务分解与合并等方面还可以作进一步研究,比如如何对数据进行分块能使聚类效率更高,如何对数据子集的结果进行聚合能保证高效率的同时有更好的聚类质量。
其他文献
随着数字媒体技术的不断发展,多媒体图像视频已应用在工作和生活的各个方面。高清图像视频极大地提高了用户体验,但高清图像视频意味着更高的数据量,在传输时由于当前网络带
着眼于中国的电力发展,从解放初期的蜡烛和煤油灯,到七十年代电灯泡的流行,到现在电视、冰箱、洗衣机的等家用电器的普及,国家飞速发展给我们带来了高质量的物质文化生活,推动了中国电力的快速发展,同时也带来了更多的挑战和考验。如今,随着大数据技术、物联网技术、智能化技术的不断发展,电力行业每天产生的数以亿计的数据量,但并没有得到充分的利用;各地区的电力数据分散管理,电网数据的断层现象也造成数据间的关联性缺
科学是一门很重要的小学启蒙课程,要让学生爱上科学,就要与学生建立良好的师生关系,激发学生的学习兴趣,开展好小组合作学习,还要进行课外延伸,拓展学生眼界.
我国资本市场上的并购行为不仅数量越来越多,模式愈加多样化,涉及的行业也更加广泛。各方面资本的介入使并购相关的理论和实践都得到了很好的发展和运用,但国内研究更多是集中在比较并购后企业是否获得超额收益上,对影响并购绩效高低的因素讨论较少,这就导致管理层很难从这些研究中获得提高并购绩效的建议。其次,目前理论研究对一些出现较晚或者行业整体价值不是特别高的行业关注度极低,速冻食品行业就是其中之一。然而,随着
在现代高等教育中,理论教育是根基,不可或缺;实践教育可以提高学生的动手操作能力、创新能力、设计分析能力以及社交沟通能力,在国家推崇创新动手能力的当下,实践教育改革成为高校
当今中小学生的作业量每天平均到底有多少,他们每天需要多长时间来完成作业,留有多少时间预习和复习功课,他们每天是在重复机械地写作业,还是在做一些有趣味性和创造性的作业呢?据
本文根据二语习得研究专家们对该学科在新世纪到来之际的展望 ,探讨二语习得研究的多学科前景。全文共分三部分 :第一部分讨论二语习得多学科研究的含义 ;第二部分讨论必要性