基于Spark的缓存优化

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wjdy110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的基于内存的分布式计算框架比如Spark和Tez,会使用内存去缓存中间结果。缓存为这些框架提供了很好的支持,可以大幅度地提升分布式处理引擎的处理速度。因此,分布式内存处理引擎的性能和缓存的功能息息相关,在一些场景下,缓存甚至成为了性能提升的瓶颈。然而,现有的系统中一般使用的是最为简单也最为常用的缓存策略,即最少最近缓存策略(LRU)来对缓存进行管理。虽然LRU有很多良好的性质,比如代价开销小,管理方便,并且遵循了数据访问具有局部性的设计理念,但是LRU的相对优势是基于无法得知未来的数据访问模式的条件之上得来的,如果可以获知未来的数据访问轨迹,根据未来的访问轨迹做出决策可以带来更高的收益。而Spark系统中的有向无环图(DAG)包含着未来数据的访问模式,利用这一点可以对Spark缓存进行优化。现有的一些研究MRD,LRC已经基于DAG对Spark缓存进行了优化,本文基于它们的工作,将应用场景划分为线上场景和线下场景,再根据两种场景的特点提出相应的缓存策略。线下场景中,本文在MRD策略的基础上,增加了对于置换开销的考量,来减少无用的置换操作。在线上场景中,本文在LRC的基础上,增加了对DAG相似度的比较来修正LRC的结果。最后,通过实验对比,证明本文提出的方法存在一定效果,在最好的情况下,执行时间比LRU方法提升50%。
其他文献
视频中的行为识别一直以来都是计算机视觉社区中最热门并且悬而未决的问题之一。行为识别不仅能够直接运用在智能监控,无人驾驶,人机交互等多个领域,并且是许多其他视频研究任务的基础。随着深度学习技术的发展,行为识别这一领域涌现了许多基于深度神经网络的新算法。主流的方法大体上分为3D卷积,双流,循环神经网络三个家族。依靠这些方法,视频的时空特征能够被有效地挖掘和运用。这些模型能够在UCF101,HMDB51
深层页岩气储层岩石组构复杂、非均质性强,基于矿物含量三端元的岩相分类无法精细反映其非均质性变化。利用X射线衍射、物性、薄片、地球化学以及测井等资料,对川南泸州地区五峰组—龙马溪组深层页岩地层开展了以“氧化还原+TOC含量+矿物组分”三重信息为基础的微相细分,分析了不同测井曲线对微相细分类型的敏感性,并采用基于K-means的贝叶斯判别法建立了微相细分类型的测井精细识别方法。结果表明:(1)研究区页
转移肿瘤是指癌症从身体的一个部位扩散到了另一个部位,大约三分之二的癌症患者都会患有骨转移肿瘤,而脊柱是骨转移肿瘤最常见的发病部位,脊柱转移肿瘤可能会引起病人疼痛、脊椎不稳定和神经损伤。因此,脊柱转移肿瘤的早期检测对于疾病的精准分期、改善患者的预后以及最佳治疗方案的选择至关重要。在脊柱转移肿瘤的临床诊疗中,脊椎的检测分割以及骨质质量的诊断分类是两个非常重要的问题。本文针对这两个问题,基于深度学习的方
随着科技的发展,学者的数量也迅速增长,由于学者之间交流频繁,而且学者个人信息在许多领域都有应用,因此如何准确快速地获取学者信息变得非常重要。Acemap作为一个学术大数据平台,目前数据库中还缺少相关学者信息的数据。本文从Acemap的实际情况出发,对使用计算机方法自动从互联网中获取学者信息进行了研究。本文将该过程分成三大部分,分别是网络数据采集、学者主页判别和学者主页信息抽取,对每一部分分别进行了
期刊
语义分割是一种细粒度的场景理解任务,在自动驾驶、计算影像等众多应用中起着至关重要的作用。随着深度学习的发展,基于深度模型的语义分割算法也取得了重大的进步。但是由于语义分割需要像素级别的精确标注,相较于分类模型极大地提升了标注的难度和成本,也限制了语义分割任务在新场景的应用和扩展。为此,本文探究在弱监督情况下,即如何在降低数据标注的数量或者质量的情况下,保证分割模型的效果。针对语义分割任务中图像标注
智能驾驶中车辆检测技术这一核心环节,在自主导航、碰撞检测等应用中有着重要的地位。通过输入的传感器数据,车辆检测算法提取环境中的特征,实时检测环境中的车辆目标及其空间位置以及车辆目标当前的姿态,从而合理地对车辆前进路线进行规划。虽然在现有研究下,已经有部分较为成熟的车辆检测算法,但这些算法仅能在光照等环境条件理想的情况下实现车辆检测,并且由于激光雷达本身的限制,远距离目标的点云数据十分稀疏,极大地影
“儿童的发现”是教育史上的“哥白尼革命”,儿童和成人一样,是权利的持有者,是知识的创造者,是积极的行动者。师幼关系作为幼儿园重要的人际关系之一,对儿童的发展有着深远的影响。因此,了解儿童是怎么看待师幼关系的、儿童对当前的师幼关系是否满意、儿童期望的师幼关系是什么样,对于建立良好的师幼关系、促进儿童发展有着重要的意义。本研究选取了30名大班儿童作为研究对象,利用专门研究儿童视角的马赛克方法,将观察、
高速公路建设项目的竞争越来越激烈,高速公路建设施工运营机制和市场管理也发生了巨大的变革,受外部环境和各项因素的制约,建设施工安全问题日益突出,不同程度地增加了建设施工的风险。基于此,文章剖析了高速公路工程施工安全风险管理的意义,制订了完善的应对策略,为同类工程施工奠定了坚实的基础。
随着人工智能和深度学习的兴起,推动统计学习发展的同时,知识图谱也受到了国内外广大学者的关注和研究。目前,知识图谱主要有着智能问答,推理推荐,图嵌入等方向的研究,而这些研究主要被应用在医疗、金融、企业管理以及一些大型的搜索引擎,例如谷歌Google、百度和微软Bing。同时,随着时代的进步,世界各国对科学与技术的投入与日俱增,每年有大量的年轻学者加入到科研的行列,世界范围内被发表的论文也呈指数增长。