Spark计算环境中的种间数据均衡放置算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:a27155908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的不断发展,全球使用互联网的人数在持续的增加,互联网已经在很多行业进行实践和应用,带来了互联网数据的批量式增加,分析处理这些海量的互联网数据是一个至关重要的现实问题,同时也给分布式计算提供了新的发展机遇。Google提出的MapReduce,它的特点是可靠性高、编程简单、能自动并行处理作业,是一种用于处理大数据的分布式并行编程模型。Spark是基于内存计算的分布式并行计算框架,Spark通过引入RDD数据模型及基于内存的运算模式,使其能很好地适应大数据的数据挖掘这中场景,并且在迭代计算方面优于Hadoop,迅速成为了广大企业、学者的研究重点。此外,很多科研单位和企业开始在海量数据的处理和研究中开始应用Spark。  自MapReduce变成一个高效的和流行的并行数据处理编程框架,中间数据key值的偏斜成为影响系统性能的一个重要瓶颈。当MapReduce处理的数据分布不均匀时,会造成有些任务比其他任务运行较慢的情况,而整个作业的执行时间是由最慢的那个任务决定的,当处理数据存在倾斜会导致处理数据分布不平衡从而产生“短腿”作业,最终影响整体的运行效果。因此增加了整个作业的完成时间,使系统性能下降。MapReduce中数据倾斜问题可以通过统计key值频率提前制定分配方案的方法来解决。  为解决在Spark计算框架下shuffle过程中的buckets容器负载不平衡问题。本文提出了对中间数据块分割和组合算法SCID(segmentation and combinationalgorithm for skew intermediate data)。由于keys值的数量不可统计,除非输入数据被map任务处理,因此本文基于蓄水池的采样算法以得到中间key值的分布数据。对比原始buckets中数据加载机制,SCID根据每个map任务的键/值元组的数据大小进行排序,并有序的填充到相关buckets中。如果一个cluster超过当前的buckets容量将被分割。在填充满这个buckets后,其余clusters将进入下一次迭代,通过这种方式,数据的总大小在每个bucket大约是相等的。对于每一个map任务,每个reduce任务会从一个特定的buckets获取到中间结果,这样每个bucket中map的任务数量在reduce任务端达到负载均衡。我们在Spark1.1.0上运行SCID算法并通过广泛使用的标准Benchmark评估其性能,比如:Sort,TextSearch,Word Count。实验结果表明,我们的算法不仅可以实现更高的总体平均负载平衡性能,而且对不同程度的数据倾斜降低了作业的执行时间。
其他文献
随着无线Ad hoc网络技术的快速发展,无线用户已经不能仅仅满足于简单的数据通信。有严格时延、错误率限制的实时多播业务需求正在迅猛增加。然而无线网络带宽多变、冲突频繁
Web服务技术解决了信息系统之间的交互问题,促进了企业对企业(Business to Business)和企业应用集成(EAI, Enterprise Application Integration)技术的发展。但是对于商业应
随着信息技术和网络技术的发展,很多企业都有自己的局域网,各种对应的网络设备层出不穷。这些设备虽然可以调节自己的时钟,但是无法保证所有的设备和主机的时间是同步的。本文所
已有的电子支付系统大多采用联机在线支付方式,不支持电子现金找零,给实际应用带来很多困难。金融国际化和经济全球化要求克服国内已有电子支付网络平台难以普及的弱点,开发一种
数字信号处理(Digital Signal Processing,DSP)普遍采取静态指令调度技术的VLIW(Very Long Instruction Word)体系结构,在很大程度上依赖编译器的处理。这对编译器的设计和应用
无缝拼接系统是对多媒体进行大范围、高分辨率显示的一种有效实现方式。它所带来的超大画面、多屏显示以及清晰逼真的显示效果使得监控、安防、会议、模拟仿真等领域的工作效
随着汽车行业的快速发展,汽车控制网络(简称车控网)开发周期的缩短和开发成本的降低,对于汽车开发来说,变得越来越重要。为车控网的开发引入低成本的软硬件协同设计开发工具链,特
硬件发展模式从以前的提高CPU主频速度转变为现在的增加CPU内核数量,注定了软件开发技术的变革。软件的性能再也不可能因为硬件的简单升级而带来显著提高。想要发挥多核的威
基于无线传感器网络(WSN)的目标监测是无线传感器网络最广泛和最重要的应用之一,也是当前研究热点之一。由于具有自适应性、灵活性和低能耗性等特点,基于无线传感器网络的目
随着互联网技术的高速发展,网络上的文本种类越来越多并且日益高速增长,人工筛选适合的文本种类是不切实际的,对互联网上的各类文本进行信息采集就不可避免的使用到智能化的