基于SLA的MapReduce调度机制研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ares_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce作为一种有效的数据分析和处理解决方案已被广泛应用于大规模数据处理领域。随着MapReduce应用的扩大,越来越多的服务提供商对外提供MapReduce商业服务。服务提供商通过运行MapReduce作业实现一系列业务逻辑,最终将数据分析和处理结果返回给用户。为保证双方权益,用户与服务提供商之间签订服务水平协议(SLA),服务提供商必须遵循SLA,满足作业响应时间等性能需求,否则可能收到违约处罚。因此,如何有效的进行作业及任务调度以满足用户的SLA已成为服务提供商关注的问题。SLA的差异性和集群的共享性为解决这一问题带来了诸多挑战。1)用户需求的不同,造成了作业类型的多样化,集群中可能同时运行着即席查询作业,处理生产型的大作业、机器学习型作业等,即使处理同一数据集,也可能出现短交互式作业和长批量作业混杂的复杂场景,相应地,用户对SLA中作业响应时间也就有着迥然相异的要求。2)服务提供商为节约构建独立集群和跨集群数据复制带来的网络和存储成本,使得MapReduce集群在多用户群组间共享,但同时也造成作业性能容易受到其他并发作业的影响,给满足用户的SLA增添了挑战。现有的MapReduce调度机制重点关注集群资源在用户间的公平共享,或者通过基于优先级的策略进行资源分配和调度。但是这些调度机制缺乏对用户SLA的感知,作业优先级难以体现用户SLA具体的差异,粒度过大,无法建立优先级和用户SLA间准确的映射关系。同时,还缺乏对集群运行状态和作业执行状态动态变化的感知,从而无法准确而有效的满足用户的SLA。针对上述问题和挑战,本文从作业性能模型构建、作业级调度和任务级调度优化等几个方面着手,提出了基于SLA的MapReduce调度机制。本文的主要工作和成果包括:1.提出基于SLA的MapReduce调度架构,引入可插拔的调度支持节点,从作业级和任务级两个层次对用户的SLA提供灵活支持,并给出了该架构下动态自适应的作业性能模型,该模型基于历史记录、集群和作业运行状态,准确地预测和判断是否可能出现SLA作业响应时间上限违例的情况。2.针对用户SLA的差异性,结合作业性能模型,提出基于SLA的两阶段作业调度机制,该机制预测满足用户SLA所需的最小资源量以及作业预期边际收益,据此实现集群资源划分,进行作业调度以最大限度地满足用户的SLA,避免集群闲置资源的盲目分配,并提高服务提供商可能获得的全局收益。3.在作业级调度策略的基础上,提出感知数据分布的任务分配优化机制,尽可能减少组成作业的若干任务执行过程中的数据移动代价,从而通过架构反馈回路,提高执行效率,缩短作业响应时间,优化SLA满足率。该机制以感知数据分布为核心思想,根据map任务和reduce任务输入数据分布的不同特点,分别以任务的本地调度权重和数据传输代价为依据,基于贪婪思想实现有效的任务分配。4.从作业性能模型准确度,作业级调度策略对用户SLA满足的有效性和任务级分配优化对任务执行效率提升程度几个方面进行实验评估,验证了本文工作的可行性和有效性。
其他文献
中文音译人名属于未登录词,而未登录词识别是自动分词技术的关键问题,自动分词是信息检索、信息抽取及知识发现等方面起着很重要的作用。目前在音译名的识别方面已有很多的研
近年来,视频追踪将计算机视觉、模式识别、人工智能等学科的技术很好的融合在一起,成为视觉研究领域内一个非常活跃的分支,具有广阔的应用前景。尽管已有很多目标追踪算法,但是,由
虚拟化技术在当前数据中心中应用越来越普遍。虚拟化技术通过在同一个物理机上运行多个虚拟机来提高硬件资源的利用率。大规模的数据中心应用虚拟化技术实现资源的高效利用,
随着脑科学研究的发展,一种融合了传统机器智能与大脑智能的混合智能系统的实现变成可能。混合智能系统可以突破传统的人工智能在机器智能方面的局限性,为人工智能发展领域开辟
随着云计算的兴起,软件的交付与使用模式正在发生着变化。作为云计算的一部分,PaaS平台为SaaS应用提供完整的开发、部署及运行环境。租户通过PaaS平台租用自己所需的SaaS应用
随着互联网技术的高速发展,网络中积累了大量的数字图像和视频数据,这些数据为人们的使用带来了新的技术挑战。为此,许多专家学者对图像分类、图像检索、目标识别等领域进行
随着互联网技术与信息产业的发展,以及各种图片分享类网站的出现,如今我们已经步入图像时代。图像是一种直观的媒体资源,在日常生活中扮演着重要角色。图像分类是计算机视觉
随着嵌入式系统网络化、智能化应用的不断扩展,传统软件实时操作系统作为支撑软件已无法满足需求。基于硬件化、软硬件协同等手段,在FPGA、SOC等器件上实现硬件实时操作系统已
随着互联网的飞速发展,在线社群图像的规模呈爆炸式增长,面对日益庞大的图像数据,如何对图像库进行有效的组织、管理和检索成为亟待解决的问题。标签是当前标注这些网络图像
实值优化问题在工程和学术领域有广泛的应用背景,许多问题最后都可以被定义成实值优化问题来求解。随着系统越来越复杂,需要优化的参数越来越多,优化问题解空间的维度越来越