论文部分内容阅读
云计算已经是下一代服务计算模式,并且全面进入实践和应用的阶段。由于硬件升级换代,在性能价格比、可扩展性和可用性方面,云计算资源虚拟化和异构集群系统显现出巨大优势,这使得集群系统中节点间硬件资源或者指令集的异构逐渐成为当今计算机体系结构和并行处理相关研究的热点课题。如何充分有效的利用集群系统范围内的资源是研究的关键问题,而负载均衡是解决集群系统资源高效利用的有效手段之一。 现有的Hadoop平台在异构集群环境下,由于节点计算能力和节点上的数据分布不匹配而导致强节点大量偷窃弱节点上的任务来执行而形成非本地任务,由于数据不在本地,需要先通过网络将数据传送到任务执行节点上,这一过程带来了节点间网络通信的开销。导致任务平均响应时间延长以及集群系统网络资源的争用等问题从而影响系统性能。本文针对异构集群系统中存在的上述问题,提出了一种异构集群计算能力敏感的数据重分布法。论文的主要工作和创新如下: 论文的主要工作和创新如下: (1)提出了一种计算能力敏感的数据重分布方法,根据节点计算能力重新部署预处理数据。解决异构集群WordCount和Kmeans等典型应用存在的任务偷窃现象严重,非本地任务的比例高等问题,提高了系统效率。 (2)设计并实现了一种集群各节点对于当前作业的实时处理能力的评估方法。该方法作为前述存储负载重分布方法的动态调度依据,方法具有作业相关性,并且适用于任何集群作业。 (3)动态监控集群系统上的网络资源情况并实时反馈信息到各集群节点调整重分布策略以避免网络资源瓶颈。 (4)在基于硬件资源异构的hadoop集群环境中实现计算能力敏感的数据重分布方法,并分别在非迭代和迭代型MapReduce作业中设计实验评估性能收益。实验结果显示相比原始hadoop版本,改进后的版本在非迭代的mapreduce中有11%到14%左右的性能提升,在迭代型MapReduce中有35%到50%左右的性能提升。实验验证了本方法在提高任务本地性,减少任务的平均响应时间,缓解集群系统网络带宽和提高系统性能上的效果。