集群计算引擎Spark中的内存优化研究与实现

被引量 : 0次 | 上传用户:limutou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在迭代之间使用内存做数据传输的并行计算框架是当前的一个研究热点。与传统的基于硬盘和网络的计算方式相比,使用内存可以减少数据传输的时间。对于数据密集类型的任务,可以将运行时间提升十几倍。在新一代框架快速发展的同时,如何充分利用相对仍然紧缺的内存资源,保证任务的运行效率,成为一个亟待解决的问题。本文基于集群计算引擎Spark,研究了并行计算集群对于内存的使用行为。通过对内存行为进行建模与分析,对内存的使用进行了决策自动化以及替换策略优化。提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。本文的贡献主要有:通过对代码的语义进行分析,实现了内存策略的自动化。即调度器可以自动识别出价值的数据集(RDD)放入缓存,避免缓存存污染的同时,也减轻了程序员的编程负担。在对代码语义分析,获得任务详细信息的基础上,对内存使用的替换策略进行了优化。主要包括RDD大小和权重的计算,操作顺序的优化重排,使用寄存器分配模型加权重信息形成新的替换算法,代替原有的LRU算法以及多级缓存模型的智能化。最后对内存在异构集群群上的行为也进行了初步的分析。最后通过不同的实验,验证了优化后的方案可以提高任务对不同集群环境的适应性,并且在在内存资源相对有限的情况下使任务运行效率更高,使系统的实用性整体增强,对于其他并行系统中的内存使用也有实际的参考价值。
其他文献
地震偏移是在波动方程的基础上,将反射层移动到其正确的空间位置并聚焦绕射能量到其散射点的过程。叠前时间偏移是解决复杂构造条件下地震波场成像的有效工具。对于成像来说,TI
本研究通过叙述幼儿教师专业生活来探讨促进幼儿园教师专业发展因素的叙事研究,采用了质的研究方法,选择一名幼儿园教师作为叙事研究对象。在对该教师的专业生活史进行深描的基
作为我国重要支柱性产业的房地产行业,在城市化进城的推动和促进国民经济的发展方面做出了很大贡献,除此之外,在带动其他行业的发展上也起到了重要作用,是我国第三产业的重要组成
“社会资本”作为社会学的核心概念,在现代社会被人们越来越多地提及。在过往诸多的研究中,大多是运用“人力资本”等理论对就业问题进行讨论,本研究在汲取国内外先进的相关理论
2016是"十三五"计划的开局之年,国家相关部门相继颁布并实施了多项医改政策,医药行业将面对多项新增政策在内的全新考验,在此之下,医药企业的机遇与挑战并存。奇正藏药在2016
“十二五”规划及桥头堡战略对云南经济发展提出了加快经济发展方式是优化结构,云南工业化程度相对于全国来讲很低,目前工业化进程处于工业化初期向中期迈进,工业结构矛盾尖锐,工
中澳建立FTA的谈判中既有中澳两国深厚的贸易基础这样的良好条件,同时也存在一些亟待解决问题。贸易基础方面,中澳自1972年建交以来两国经贸往来日益密切,特别是改革开放以后我
新一轮的基础教育课程改革对课堂教学提出了新的要求,教学方式作为课堂教学中一个非常重要的组成因素,它的变革成为课堂教学改革的重心和难点。因此,高中生物教师教学方式转变的
目的评价消化内科慢性萎缩性胃炎临床规范治疗效果,为慢性萎缩性胃炎用药方案提供参考。方法选择我院消化内科2016年7月~2017年5月收治治疗的80例慢性萎缩性胃炎患者,以1:1比
新课改为语文教学带来契机,也让语文教师面临挑战。面对新形势,每一位语文教师都应积极转变教育教学思想,努力提升个人业务水平。把建设高效课堂,作为教学的首要任务。高中语文“