KDSG-DBSCAN:一种基于K-D树和Spark GraphX的高性能DBSCAN算法

来源 :武汉大学 | 被引量 : 0次 | 上传用户:xiaguangguang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DBSCAN是一种应用广泛的基于密度的聚类算法,具有能从存在噪声点的点集中发现任意形状的点聚类且不需要提前设定聚类个数等优点。但是,经典DBSCAN算法因为需要迭代式的点间距离计算,性能会随着数据规模的增大而急剧下降。针对这一问题,本文提出一种性能优化的并行聚类算法——KDSG-DBSCAN。KDSG-DBSCAN 基于 Spark MapReduce 对 DBSCAN 进行并行化设计,利用K-D树邻域查询算法减少距离计算次数,并运用并行图连通算法优化类簇合并的效率。本文的研究工作主要有以下四个方面:1)经典DBSCAN算法的执行流程性能分析。在梳理和总结数据聚类分析与大数据分布式存储计算领域的理论与应用现状的基础上,通过对经典DBSCAN的执行流程进行分析,本文提出了从减少迭代点间距离计算和并行化两个方面来优化DBSCAN算法性能的思路。2)基于索引机制提高局部聚类效率。在DBSCAN局部聚类阶段中,距离判断产生了大量不必要的两两点间距离计算,形成了性能瓶颈。针对这个问题,本文引入K-D树索引结构,通过K-D树邻域查询筛选出邻域内的点进行计算,有效减少了计算次数,提高了 DBSCAN局部聚类阶段的性能。3)基于并行图连通策略优化DBSCAN类簇合并性能。针对并行DBSCAN算法在局部类簇合并的过程中产生了大量的通讯和传输消耗,本文用图结构来表达类数据点的聚类关系,基于Spark GraphX的并行图连通方法来提高类簇合并的并行度,降低通讯和传输消耗,从而提高了性能。4)实现算法和实验验证算法的性能提升效果。基于Java面向对象编程技术和Spark分布式内存计算框架实现了设计的算法。针对提出的算法,开展四组对比实验,对比分析KDSG-DBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率,分析了KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性、不同计算节点数量及CPU核数下KDSG-DBSCAN的扩展性。实验结果表明,本文提出的算法相对于经典DBSCAN具有明显的性能提升;在大规模点数据的聚类中具有良好的可扩展性,为空间大数据的聚类挖掘提供了一种可行的优化方案。
其他文献
海洋环境和不合理使用海砂引起的钢筋腐蚀是造成沿海地区混凝土结构耐久性劣化的主要原因。针对受氯盐侵蚀的既有混凝土结构,其内部钢筋持续发生电化学腐蚀导致结构力学性能
随着城市化进程的加快,城市用地日益紧张,合理地开发与利用地下空间资源是解决城市用地紧张的有效途径。目前,虽然已有部分学者提出对既有建筑进行地下增层实现地下空间的开
在当今物流运输行业中,随着货运总量和运输里程的与日俱增,传统的半挂车运输已不能满足市场的需求。相比于半挂车运输,中置轴列车采用牵引车和挂车组合的方式,能够充分发挥装
结构的参数识别受到噪声及建模不确定性影响,在实际工程中面临着荷载复杂、参数时变、初值选取误差、统计特性不匹配等问题,难以获得传统的UKF算法要求的精确的观测模型等信
环境污染与能源枯竭问题得到了越来越广泛的关注,新能源汽车随之飞速发展,电池管理(BMS)技术是新能源汽车现存的技术难点之一,其中电池的荷电状态(SOC)估计与温度(SOT)估计是
农田Cd污染土壤修复报道已有许多,但是对于中药材种植土壤Cd污染问题研究较少。知母和益母草作为我国传统中草药应用广泛,已有研究指出这两种药用植物对土壤中Cd富集系数较高
电力工程不仅是国民经济发展的基础性产业,也是重要的公用事业,关系到千家万户、涉及到方方面面,与整个经济社会的发展密切相关。传统的发电方式为火力发电,不仅污染环境,而
铝合金因密度低、耐腐蚀性好、屈强比高、焊接性好、易于加工成形等优点,被广泛用于航空航天等领域,人们对铝合金的抗疲劳性能提出了越来越高的要求。本文以2B06-T4和6061铝
目的:观察补肾生血法对肾阳虚与肾阴虚两型慢性再生障碍性贫血患者治疗前后的中医症状分布、血象改善、外周血整合素配体FN、VCAM-1表达情况,明确补肾生血法的临床疗效,探讨
随着4K、HDR等高清视频技术的发展,消费者对更高分辨率、更具沉浸感视频内容的需求持续增加,已迫使视频行业不断研发更加高效的视频编码(压缩)技术。如何利用有限的带宽资源,