基于内存与文件共享机制的Spark I/O性能优化

来源 :计算机工程 | 被引量 : 0次 | 上传用户:ycl12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O
其他文献
公路运输是我国应用较为广泛的运输形式。软土地基作为公路建设重要的组成部分,在其上修筑的公路路堤容易发生失稳和不均匀沉降,进而导致行车安全甚至交通事故。为克服软土地
重农固本,是安民之基,我国各届政府都非常重视"三农"工作。在2016年中央农村工作会议上,党和政府又强调了要把农业农村工作放到重中之重位置,发掘农业内部潜力,促进农村经济
在建筑信息建模的精确碰撞检测应用中,数据量日趋庞大,但串行执行无法随处理机主频的增加而持续加速。针对该问题,构建面向多核及众核处理机的数据并行计算模型,基于此提出一
现有对视频网站电视剧流行度预测的研究中考虑因素较少,并且极少能在电视剧首播前进行预测,这会使视频网站在做出版权购买、广告投放等决策时考虑不全面并且出现预测时间滞后
目的:观察采用集束化护理措施在预防血液透析导管相关血流感染中的临床效果。方法:选取笔者所在医院2016年1月-2017年1月留置血液透析导管患者96例,随机分为两组,即对照组和