基于Spark的分布式数据挖掘算法的设计与实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:ary015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、社交网络和物联网等技术的兴起,各种海量数据正在不断的增长和积累,传统的数据挖掘处理方式已经不能满足用户的需求。快速准确地实现大数据挖掘任务已成为目前的研究热点。相对于近年来流行的Hadoop平台处理数据挖掘问题效率低下的状况,基于内存计算的大数据平台Spark,对数据挖掘算法的实现有着更好的优势。本文研究了基于Spark的分布式数据挖掘现状和相关技术,提出了两个不同类型的分布式数据挖掘算法:(1)不考虑数据分区的分布式聚类优化算法CK-means;(2)需要做数据分区预处理的分布式离群点检测算法VDOD(Variance–based Distributed Outlier Detection)。主要工作如下:(1)分析总结了K-means聚类算法与基于距离的离群点检测算法的国内外研究现状。分别从Spark大数据处理框架、聚类算法、离群点检测算法三个方面对基于Spark的分布式数据挖掘相关技术进行了研究。(2)首先,研究了传统聚类算法K-means及其在Spark上的并行实现。然后,针对其聚类结果不稳定的弊端,采用Canopy算法选取聚类初始簇中心,提出优化算法CK-means。CK-means算法基于概率选取Canopy中心点,提升了聚类的稳定性,而且增大单次选取Canopy中心点个数的期望,并行选取Canopy中心点,提高了计算效率。同时在Spark平台上完成了CK-means算法的实现。最后通过实验验证,与Spark上实现的K-means对比,CK-means算法在大规模数据集上计算效率和聚类准确度上均有有效的提升。(3)研究了基于距离的DB(k,r)离群点检测方法,提出了一种改进的分布式离群点检测算法VDOD。在数据预处理阶段,设计了一种基于方差的数据划分方法,该方法不仅可以均衡每个计算节点的工作负载,而且减少对数据近邻性的破坏,从而降低了离群点检测时的网络通信量。在离群点检测阶段,VDOD算法采用R索引树快速计算出局部离群点,然后通过少量网络的通信得到最终的全局离群点,同时在Spark平台上完成了VDOD算法的实现。最后通过大量实验证明了VDOD算法的有效性。实验结果表明,相对于已有算法,VDOD算法可以提高计算效率、降低网络开销。
其他文献
在队伍高度分散的情况下如何加强党的建设和思想工作沈柏铭我局原系铁道兵十一师、十三师,一九八四年集体改工并入铁道部。现有职工15000人。企业流动性大,具有"高、大、半"的特点(人员
<正> 近三年,我院甲亢专科门诊,共收治甲亢病人200余例,其中半数以上应用中药治疗,取得了肯定的疗效。现将应用甲Ⅱ号丸剂治疗的50例,报导如下: 一、药物组成: 生牡蛎、海藻
用焦虑 -C量表测试了 2 2 2 0名男女中国运动员的运动特质焦虑。结果显示出以下显著差异 :1)男运动员在竞技水平发挥、失败、对方实力 ,以及受伤测度上的分数 ,低于女运动员
期刊
以人参为原料,运用单因素试验结合响应面法对匀浆提取人参总皂苷的工艺进行优化,确定最佳提取工艺条件为:乙醇体积分数80%,液料比21︰1 mL/g,匀浆时间11 min。在此条件下,人参
本文通过对敦煌文献所记载的部分游艺活动资料进行释读,认为敦煌游艺文化深受儒家礼乐思想的影响,在活动过程中呈现出森严的等级观和严格的程式观。这使得人们在活动过程中既
本文分析威廉·福克纳的代表作之一《我弥留之际》的交替叙述视角。本书的多层次叙述视角包含三类叙述者:核心叙述者,家庭叙述者以及外围叙述者。正是通过这种多角度叙述结构
词汇学习是英语学习的基础,也是学生灵活掌握英语知识的必经过程。但是,由于当前词汇教学中采用的方法较为单一,很多学生的词汇学习效果都比较差,表现为单词记忆效率低下、出
在新兴市场国家中,很多企业的价值提升是源于其对政府的寻租。政府寻租作为一种获得额外经济报酬的非正常经济行为,政府通过利用政治资源和财政资源,进行寻租行为,使得公司在
随着电子技术在社会上的广泛运用,电子词典正逐渐取代纸质词典,成为广大用户的首选。词典编纂过程中,各种电子工具的使用,极大地提高了编纂质量和效率。电子词典学也逐渐成为
通过对组成舰船GPS导航系统定位误差的估计和船舶准确位置的计算,建立了舰船GPS导航系统(Global Positioning System)定位信号仿真模型.特别是针对船舶航行时的不同海况和天