论文部分内容阅读
任务调度是影响面向大数据应用分布式计算的MapReduce框架性能的重要因素,成为近年来的MapReduce调度研究热点。相互独立的周期性执行批处理任务是MapReduce环境下的重要任务处理类型。在涉及公安数据或金融数据的大数据处理时,安全性要求成为不可忽视的重要约束。本文研究MapReduce环境下带安全约束的批处理任务调度方法,具有重要的理论意义和应用前景。本文考虑带安全约束的批处理MapReduce任务调度问题,考虑Map和Reduce阶段安全性和数据本地化约束,以最小化最大完工时间为优化目标,兼顾作业公平性和集群负载均衡。建立带安全约束的Map、Reduce两阶段任务调度数学模型;基于此模型提出带安全约束的批处理MapReduce任务调度方法,该方法由三部分组成:Map任务调度、Reduce任务调度、调度序列调整。在Map任务调度阶段提出两种带安全约束以及负载均衡控制的Map任务调度算子,得到Map任务调度序列;在Reduce任务调度阶段提出两种带安全约束的数据本地化感知的Reduce任务调度算子,得到Map和Reduce任务调度的序列;为了优化调度序列以达到进一步缩短作业最大完工时间的目的,设计基于插入和交换的四种邻域结构,将Map和Reduce调度算子得到的调度序列作为初始序列,进一步提出基于不同邻域结构的局部搜索调度序列调整方法。为验证所提出算法的效率和有效性,采用方差分析技术对算法的相关参数和组件进行测试和分析,得到最适合求解该问题的相关参数值和组件;将提出的算法与公平调度算法在不同集群和作业规模的实例上进行比较和分析。实验结果表明:所提方法在不同集群规模和作业规模都有显著效果;所提算法在最大完工时间、数据安全和负载均衡三方面都优于公平调度算法。