Spark缓存机制研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:pandawang1231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark作为基于内存的计算框架,在保留了MapReduce计算模型的容错机制的同时,将数据交换从磁盘级别提高到内存级别,极大提高了大数据计算的处理效率。Spark也非常适用于机器学习领域多次迭代计算的场景,正是由于Spark的基于内存的计算使得Spark框架对于内存非常依赖,内存的使用情况将直接影响到Spark框架的执行速率,而Spark目前仅仅使用LRU算法来对缓存管理,当前的优化工作主要针对于框架的缓存策略,在部分场景下仍然存在低效的缓存替换的问题,本文针对Spark的缓存策略进行研究,主要完成了如下工作:1.针对LRU算法没能考虑RDD的使用情况淘汰掉部分复杂的RDD,以及在缓存替换过程中没有考虑到替换后框架的计算代价,导致重建RDD耗时增加问题,论文提出了一种基于计算代价模型的缓存替换策略,该策略首先建立包括计算代价在内的权重模型,根据新的权重模型进行缓存替换,并基于RDD计算代价模型,选择代价最小的方案进行缓存替换,从而进一步减少重建RDD的时间,提高Spark的执行效率。并将本文策略与权重替换策略和Spark原生的替换策略分别进行实验对比,结果表明,本文策略在数据集较大或者迭代次数多的情况下能够有效提高Spark框架的执行效率。2.针对Spark框架RDD缓存数据恢复机制效率低下的问题,提出一种基于恢复点的RDD缓存快速恢复的策略,将Spark任务以Stage为界限,在每个Stage中分别设置起始恢复点和关键恢复点,并将恢复点数据序列化,当根据RDD血统重建RDD时,直接从恢复点获得数据,缩短了RDD重建的血统路径长度,加速了RDD的重建过程,并在此基础上增加了恢复点清理算法,确保该策略在Spark运行过程中只会占用少量的磁盘空间,节省磁盘资源。并将本文策略与Spark原生数据恢复策略进行实验对比,结果表明,本文策略相比框架原生的数据恢复策略能够加速RDD重建过程,提高Spark的运行速率。3.对本文提出的基于计算代价模型的缓存替换策略、基于恢复点的RDD缓存快速恢复策略进行了设计与实现。论文工作表明,针对Spark的缓存策略进行研究优化,在缓存替换的过程中基于RDD计算代价选择代价最小的方案进行缓存替换,可以降低重建RDD的时延,并将重要RDD序列化,加速RDD的重建过程,进一步减少RDD恢复的时间,提升Spark计算框架的性能,对Spark框架处理大数据有重要意义。
其他文献
春秋末年至战国末年,由于社会制度大变动,政治经济大发展,士大夫阶层空前壮大。他们纷纷著书立说,互相辩难,形成百家争鸣的局面。这一时期音乐美学思想也极为活跃。儒、道、
远程医学泛指应用远程通讯技术交换医学信息,以达到诊断、咨询、治疗和教学目的。远程放射学、远程病理学和远程皮肤病学是目前应用较为广泛的远程医学领域。文中对远程皮肤
目的观察六味地黄丸(地黄丸)对去卵巢高血脂大鼠雌激素受体α、β(ER α、β)mRNA 表达的影响。方法采用8周龄雌性大鼠建立去卵巢高血脂模型,将24只大鼠随机分为3组:去卵巢加
通过近几年来对太原地区早黑宝葡萄的病害情况调查,主要发现有霜霉病、灰霉病、白腐病和日灼病等常见病害,这些病害常常给生产造成巨大损失。针对不同病害,在埋土前和出土后
我国现行《职业教育法》实施以来,对促进、发展和规范我国的职业教育起到了积极的推动作用。但是,随着职业教育的发展,逐渐显露出《职业教育法》部分条款有不适合职业教育发
作为海洋最重要的初级生产力,微藻因其生长速度快、光合作用强以及含油量丰富,被认为是极富前景的生物柴油新原料。研究发现,很多微藻随着分批培养时期其含油量在不断增多,大
1996年9月1日实施的《中华人民共和国职业教育法》,以《教育法》、《劳动法》为基本依据,规定了我国职业教育的范畴体系、地位作用、办学方针以及职业教育的保障条件等,是我国职
目的:利用黑曲霉As3.4309发酵产酶,对芦丁的二元糖苷链进行水解,以得到苷元槲皮素。方法:研究黑曲霉As3.4309的最佳产酶条件,对芦丁进行生物转化;用凝胶层析进行转化产物的分
学生生命成长的教育,就是要努力使学生成为幸福人生的创造者。生命教育,它体现的是一种教育的价值追求。英语学科虽然是生命教育的隐性课程,它仍然蕴涵着丰富的生命教育内容
现藏日本的刘宋元嘉十四年佛像是学术界公认的名作 ,近年来又发现了数件南朝款造像 ,但均为伪作 ,在样式上与元嘉像多有关连 ,故此件元嘉像也有重新检视的必要。原河南郑州二