Spark系统中的远端内存管理系统的实现及性能优化

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：dragoncon

【摘要】

：

移动互联网技术的飞速发展使得数据的规模呈爆炸式增长,大数据处理技术飞速发展,以此为基础的学科也纷纷产生,数据挖掘、机器学习、深度学习,这些全部都依赖于数据的处理速度

【作者】

：

张亚萌

【出处】

：

国防科技大学

【发表日期】

：

2004年期

【关键词】

：

大数据分布式计算 Spark RDD持久化 checkpoint

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

移动互联网技术的飞速发展使得数据的规模呈爆炸式增长,大数据处理技术飞速发展,以此为基础的学科也纷纷产生,数据挖掘、机器学习、深度学习,这些全部都依赖于数据的处理速度,Spark作为第二代分布式计算框架,基于内存的计算使其在数据处理的速度上具有先天的优势。RDD(Resilient Distributed DataSets)是Spark中最重要的概念,每个RDD对应一个只读数据集,本文从Spark的RDD持久化机制出发,分析RDD持久化机制存在的内存受限的问题,结合天河机预研过程中提出的远端内存的概念,设计并实现了远端内存缓存方案,该方案使用远端内存优化Spark的存储管理模块;远端内存缓存方案实现了远端内存的专用,使用远端内存存放内存放不下或者从内存中淘汰的RDD,提升了Spark的RDD持久化机制的性能,进而提升Spark数据处理的总体性能。远端内存缓存方案的实现分为两部分。第一部分,通过修改Linux内核把远端内存映射到一段固定的用户态的虚拟内存空间;第二部分,使用buddy算法和slab算法管理这段固定的虚拟内存空间,这段虚拟内存空间用来存放从内存中淘汰或者内存存放不下的RDD的数据,当这段空间也被占满时,则使用LRU算法把其他的RDD数据淘汰到磁盘中。我们使用wordcount应用对远端内存缓存方案进行了测试,远端内存的性能低于内存,当数据量较大时,远端内存的性能高于磁盘。本文还深入研究了Spark的checkpoint机制,分析了checkpoint机制的数据重复计算的问题,我们提出了第一种方案,旨在避免RDD的重复计算,并分析了方案的可行性;基于远端内存缓存方案,我们设计并实现了Auto-Caching方案与Auto-Caching-Remote方案,通过自动把需要checkpoint的RDD缓存在内存或者远端内存来提升checkpoint机制的性能。经过测试,Auto-Caching方案的时间性能最好,Auto-Caching-Remote方案次之,相比优化前,这两种方案给checkpoint的性能带来了可观的提升,而且由于checkpoint的RDD的数据缓存在了远端内存,所以Auto-Caching-Remote方案未给内存带来额外的消耗。

其他文献

2004年河南省农产品进出口贸易分析

河南作为农业大省，2004年农产品进出口贸易得到了较快发展，具体呈现以下主要特点：

期刊

进出口贸易2004年农产品河南省主要特点农业

疏风醒鼻法治疗儿童变应性鼻炎（风邪犯肺型）对血清IL-33、IL-25的影响

目的:通过观察疏风醒鼻法治疗风邪犯肺型儿童变应性鼻炎(Allergic rhinitis,AR)治疗前后血清白细胞介素-33(interleukin,IL-33)、白细胞介素-25(interleukin,IL-25)表达水平的差异,旨在完善AR的发病机制,阐明疏风醒鼻法治疗儿童AR(风邪犯肺型)的作用机制,以提高临床疗效。方法:在福建中医药大学附属人民医院体检中心选择健康儿童30例作为健康对照组

学位

儿童变应性鼻炎疏风醒鼻方风邪犯肺型IL-33IL-25醒鼻凝胶滴鼻剂

对大学生休闲辅导的思考

休闲辅导是指帮助学生确立正确的休闲观念和态度,获得必要的休闲知识和技能,以及学会安排有益的休闲活动方式,从而使自己获得充实而丰富的休闲生活,发展自己的才能与个性。休

期刊

大学生休闲休闲辅导college students leisure leisure activities guidance

温室西葫芦化瓜的原因及防治

西葫芦化瓜是生产上较棘手的问题。化瓜指西葫芦雌花开放后3-4天内，幼果先端退绿变黄，变细变软，果实不膨大或膨大很少，表面失去光泽，先端萎缩，不能形成商品瓜，最终烂掉或脱落的现象

期刊

西葫芦化瓜防治原因温室商品瓜膨大雌花

信托模式下员工持股计划一般受益人份额丧失的影响因素研究

2014年6月,证监会制定并发布《关于上市公司实施员工持股计划试点的指导意见》,标志着我国上市公司员工持股计划试点的开始。此后,员工持股计划成为我国上市公司改善公司治理结构、提升公司效率、利用资本市场手段优化配置社会资金的一种重要激励手段。2014年到2018年间,我国上市公司共计完成实施了777项员工持股计划,参与职工超过33.21万人次。员工持股计划在我国资本市场飞速发展,应用范围不断扩大。员

学位

员工持股信托模式杠杆设计

浅析中职计算机课程教学

本文主要针对计算机课程在中等职业学校实际教学中存在的问题进行了分析和探讨,结合教学实际,阐述了在教学中如何对学生进行创新能力和创新精神的培养提出了具体措施与建议。

期刊

中职教育计算机课程教学模式创新能力

老年癌症患者化疗的护理体会

期刊

老年癌症患者心理护理护理体会化疗后

周豆十一号高产栽培

周豆11号是周口市农业科学院育成的高油高产多抗大豆新品种,2002年被列为国家农业科技成果转化资金项目。周口市农技站和商水县农业局在项目实施中,把核心技术与各项配套技术

期刊

Spark系统中的远端内存管理系统的实现及性能优化

其他学术论文