Spark缓存机制研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：pandawang1231

【摘要】

：

【作者】

：

王宇阳

【出处】

：

重庆邮电大学

【发表日期】

：

2020年02期

【关键词】

：

Spark RDD 缓存替换策略计算代价模型恢复点

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Spark作为基于内存的计算框架,在保留了MapReduce计算模型的容错机制的同时,将数据交换从磁盘级别提高到内存级别,极大提高了大数据计算的处理效率。Spark也非常适用于机器学习领域多次迭代计算的场景,正是由于Spark的基于内存的计算使得Spark框架对于内存非常依赖,内存的使用情况将直接影响到Spark框架的执行速率,而Spark目前仅仅使用LRU算法来对缓存管理,当前的优化工作主要针对于框架的缓存策略,在部分场景下仍然存在低效的缓存替换的问题,本文针对Spark的缓存策略进行研究,主要完成了如下工作:1.针对LRU算法没能考虑RDD的使用情况淘汰掉部分复杂的RDD,以及在缓存替换过程中没有考虑到替换后框架的计算代价,导致重建RDD耗时增加问题,论文提出了一种基于计算代价模型的缓存替换策略,该策略首先建立包括计算代价在内的权重模型,根据新的权重模型进行缓存替换,并基于RDD计算代价模型,选择代价最小的方案进行缓存替换,从而进一步减少重建RDD的时间,提高Spark的执行效率。并将本文策略与权重替换策略和Spark原生的替换策略分别进行实验对比,结果表明,本文策略在数据集较大或者迭代次数多的情况下能够有效提高Spark框架的执行效率。2.针对Spark框架RDD缓存数据恢复机制效率低下的问题,提出一种基于恢复点的RDD缓存快速恢复的策略,将Spark任务以Stage为界限,在每个Stage中分别设置起始恢复点和关键恢复点,并将恢复点数据序列化,当根据RDD血统重建RDD时,直接从恢复点获得数据,缩短了RDD重建的血统路径长度,加速了RDD的重建过程,并在此基础上增加了恢复点清理算法,确保该策略在Spark运行过程中只会占用少量的磁盘空间,节省磁盘资源。并将本文策略与Spark原生数据恢复策略进行实验对比,结果表明,本文策略相比框架原生的数据恢复策略能够加速RDD重建过程,提高Spark的运行速率。3.对本文提出的基于计算代价模型的缓存替换策略、基于恢复点的RDD缓存快速恢复策略进行了设计与实现。论文工作表明,针对Spark的缓存策略进行研究优化,在缓存替换的过程中基于RDD计算代价选择代价最小的方案进行缓存替换,可以降低重建RDD的时延,并将重要RDD序列化,加速RDD的重建过程,进一步减少RDD恢复的时间,提升Spark计算框架的性能,对Spark框架处理大数据有重要意义。

其他文献

先秦诸子音乐美学思想比较

春秋末年至战国末年,由于社会制度大变动,政治经济大发展,士大夫阶层空前壮大。他们纷纷著书立说,互相辩难,形成百家争鸣的局面。这一时期音乐美学思想也极为活跃。儒、道、

期刊

儒道杂家音乐美学思想比较

远程皮肤病学的现状和展望

远程医学泛指应用远程通讯技术交换医学信息,以达到诊断、咨询、治疗和教学目的。远程放射学、远程病理学和远程皮肤病学是目前应用较为广泛的远程医学领域。文中对远程皮肤

期刊

远程皮肤病学现状展望

六味地黄丸对去卵巢高血脂大鼠雌激素受体α、βmRNA表达的影响

目的观察六味地黄丸(地黄丸)对去卵巢高血脂大鼠雌激素受体α、β(ER α、β)mRNA 表达的影响。方法采用8周龄雌性大鼠建立去卵巢高血脂模型,将24只大鼠随机分为3组:去卵巢加

期刊

六味地黄丸雌激素受体基因表达

太原市小店区早黑宝葡萄主要病害及防治技术

通过近几年来对太原地区早黑宝葡萄的病害情况调查,主要发现有霜霉病、灰霉病、白腐病和日灼病等常见病害,这些病害常常给生产造成巨大损失。针对不同病害,在埋土前和出土后

期刊

葡萄病害防治技术

浅谈《职业教育法》的修改问题

我国现行《职业教育法》实施以来,对促进、发展和规范我国的职业教育起到了积极的推动作用。但是,随着职业教育的发展,逐渐显露出《职业教育法》部分条款有不适合职业教育发

期刊

职业教育法修改问题

三角褐指藻分批培养中脂质累积变化的分子机理的研究

作为海洋最重要的初级生产力,微藻因其生长速度快、光合作用强以及含油量丰富,被认为是极富前景的生物柴油新原料。研究发现,很多微藻随着分批培养时期其含油量在不断增多,大

学位

三角褐指藻培养RNA-Seq脂质合成

浅议现行《职业教育法》的修订与完善

1996年9月1日实施的《中华人民共和国职业教育法》，以《教育法》、《劳动法》为基本依据，规定了我国职业教育的范畴体系、地位作用、办学方针以及职业教育的保障条件等，是我国职

期刊

《职业教育法》职业教育法职教师资

黑曲霉As3.4309发酵转化芦丁的研究

目的:利用黑曲霉As3.4309发酵产酶,对芦丁的二元糖苷链进行水解,以得到苷元槲皮素。方法:研究黑曲霉As3.4309的最佳产酶条件,对芦丁进行生物转化;用凝胶层析进行转化产物的分

期刊

黑曲霉芦丁槲皮素生物转化

浅议如何将生命教育与英语教育相结合

学生生命成长的教育,就是要努力使学生成为幸福人生的创造者。生命教育,它体现的是一种教育的价值追求。英语学科虽然是生命教育的隐性课程,它仍然蕴涵着丰富的生命教育内容

期刊

生命教育英语教育

谈元嘉十四年韩谦造金铜佛像的疑点及其他伪像

现藏日本的刘宋元嘉十四年佛像是学术界公认的名作 ,近年来又发现了数件南朝款造像 ,但均为伪作 ,在样式上与元嘉像多有关连 ,故此件元嘉像也有重新检视的必要。原河南郑州二

期刊

元嘉十四年韩谦造像山东莒县出土元嘉款像郑州二中出土石佛像瑞士瑞特保格博物馆藏石佛像

Spark缓存机制研究与实现

其他学术论文