KDSG-DBSCAN:一种基于K-D树和Spark GraphX的高性能DBSCAN算法

来源 :武汉大学 | 被引量 : 0次 | 上传用户：xiaguangguang

【摘要】

：

DBSCAN是一种应用广泛的基于密度的聚类算法,具有能从存在噪声点的点集中发现任意形状的点聚类且不需要提前设定聚类个数等优点。但是,经典DBSCAN算法因为需要迭代式的点间距

【作者】

：

高旭

【出处】

：

武汉大学

【发表日期】

：

2017年01期

【关键词】

：

DBSCAN K-D 树 MapReduce Spark GraphX 空间大数据聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

DBSCAN是一种应用广泛的基于密度的聚类算法,具有能从存在噪声点的点集中发现任意形状的点聚类且不需要提前设定聚类个数等优点。但是,经典DBSCAN算法因为需要迭代式的点间距离计算,性能会随着数据规模的增大而急剧下降。针对这一问题,本文提出一种性能优化的并行聚类算法——KDSG-DBSCAN。KDSG-DBSCAN 基于 Spark MapReduce 对 DBSCAN 进行并行化设计,利用K-D树邻域查询算法减少距离计算次数,并运用并行图连通算法优化类簇合并的效率。本文的研究工作主要有以下四个方面:1)经典DBSCAN算法的执行流程性能分析。在梳理和总结数据聚类分析与大数据分布式存储计算领域的理论与应用现状的基础上,通过对经典DBSCAN的执行流程进行分析,本文提出了从减少迭代点间距离计算和并行化两个方面来优化DBSCAN算法性能的思路。2)基于索引机制提高局部聚类效率。在DBSCAN局部聚类阶段中,距离判断产生了大量不必要的两两点间距离计算,形成了性能瓶颈。针对这个问题,本文引入K-D树索引结构,通过K-D树邻域查询筛选出邻域内的点进行计算,有效减少了计算次数,提高了 DBSCAN局部聚类阶段的性能。3)基于并行图连通策略优化DBSCAN类簇合并性能。针对并行DBSCAN算法在局部类簇合并的过程中产生了大量的通讯和传输消耗,本文用图结构来表达类数据点的聚类关系,基于Spark GraphX的并行图连通方法来提高类簇合并的并行度,降低通讯和传输消耗,从而提高了性能。4)实现算法和实验验证算法的性能提升效果。基于Java面向对象编程技术和Spark分布式内存计算框架实现了设计的算法。针对提出的算法,开展四组对比实验,对比分析KDSG-DBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率,分析了KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性、不同计算节点数量及CPU核数下KDSG-DBSCAN的扩展性。实验结果表明,本文提出的算法相对于经典DBSCAN具有明显的性能提升;在大规模点数据的聚类中具有良好的可扩展性,为空间大数据的聚类挖掘提供了一种可行的优化方案。

其他文献

外加电流阴极保护导致的CFRCM-混凝土界面性能劣化研究

海洋环境和不合理使用海砂引起的钢筋腐蚀是造成沿海地区混凝土结构耐久性劣化的主要原因。针对受氯盐侵蚀的既有混凝土结构,其内部钢筋持续发生电化学腐蚀导致结构力学性能

学位

ICCP-SS保障体系碳纤维增强水泥基复合材料碳纤维增强复合材料碳纤维增强水泥基复合材料-混凝土界面

既有建筑“桩-墙”式基础托换法地下增层模型试验研究

随着城市化进程的加快,城市用地日益紧张,合理地开发与利用地下空间资源是解决城市用地紧张的有效途径。目前,虽然已有部分学者提出对既有建筑进行地下增层实现地下空间的开

学位

既有建筑“桩-墙”式基础托换法地下增层模型试验数值分析

中置轴列车行驶稳定性分析与防侧翻研究

在当今物流运输行业中,随着货运总量和运输里程的与日俱增,传统的半挂车运输已不能满足市场的需求。相比于半挂车运输,中置轴列车采用牵引车和挂车组合的方式,能够充分发挥装

学位

中置轴列车侧翻预警单侧制动Trucksim仿真行驶稳定性

基于自适应UKF的非线性结构参数识别方法

结构的参数识别受到噪声及建模不确定性影响,在实际工程中面临着荷载复杂、参数时变、初值选取误差、统计特性不匹配等问题,难以获得传统的UKF算法要求的精确的观测模型等信

学位

UKF自适应方法OpenSees时变参数

基于锂离子电池温变电热耦合模型的SOC与SOT估计的研究

环境污染与能源枯竭问题得到了越来越广泛的关注,新能源汽车随之飞速发展,电池管理(BMS)技术是新能源汽车现存的技术难点之一,其中电池的荷电状态(SOC)估计与温度(SOT)估计是

学位

锂离子电池电热耦合模型SOC估计SOT估计

沸石对知母和益母草累积Cd及其生长的影响

农田Cd污染土壤修复报道已有许多,但是对于中药材种植土壤Cd污染问题研究较少。知母和益母草作为我国传统中草药应用广泛,已有研究指出这两种药用植物对土壤中Cd富集系数较高

学位

沸石知母益母草生长镉

基于价值工程理论的水电站调压方案比选研究

电力工程不仅是国民经济发展的基础性产业,也是重要的公用事业,关系到千家万户、涉及到方方面面,与整个经济社会的发展密切相关。传统的发电方式为火力发电,不仅污染环境,而

学位

调压方案比选价值工程指标体系价值系数

均布增压载荷对蒙皮连接结构疲劳性能的影响

铝合金因密度低、耐腐蚀性好、屈强比高、焊接性好、易于加工成形等优点,被广泛用于航空航天等领域,人们对铝合金的抗疲劳性能提出了越来越高的要求。本文以2B06-T4和6061铝

学位

机身蒙皮均布增压裂纹扩展速率疲劳寿命断口分析

补肾生血法治疗慢性再障的临床观察及对整合素配体FN、VCAM-1表达的影响

目的:观察补肾生血法对肾阳虚与肾阴虚两型慢性再生障碍性贫血患者治疗前后的中医症状分布、血象改善、外周血整合素配体FN、VCAM-1表达情况,明确补肾生血法的临床疗效,探讨

学位

贫血再生障碍性补肾生血法FNVCAM-1

基于视觉特性的HEVC视频编码优化研究

随着4K、HDR等高清视频技术的发展,消费者对更高分辨率、更具沉浸感视频内容的需求持续增加,已迫使视频行业不断研发更加高效的视频编码(压缩)技术。如何利用有限的带宽资源,

学位

HEVC码率控制率失真优化人眼视觉特性

KDSG-DBSCAN:一种基于K-D树和Spark GraphX的高性能DBSCAN算法

其他学术论文