论文部分内容阅读
最近,深度学习技术已经成功应用到各种问题。深度学习的成功归功于日益累积暴增的数据量,并且多层人工神经层对输入数据具有的高表征能力,而GPU通过显著缩短训练模型参数的时间,在深度学习里充当着重要的角色。最近数年来各种针对深度学习的GPU集群在各个企业和科研机构等被建立,GPU集群在大企业中通常由成百上千个节点组成,如此巨大的集群长时间运行,消耗了大量能耗,增加了系统的不稳定性和企业的运营成本。所以,在大规模GPU集群中减少深度学习任务能耗,从经济角度为企业和科研机构减少费用,同时也能达到真正的绿色环保。传统的GPU或者普通计算机集群在运行时候并没有考虑到节省能耗的问题,当集群启动一段时间闲置后,所有节点处于长时间的空负载状态,或者很多节点的GPU等宝贵资源的使用率比较低,因此能源使用效率比较低。在关于集群多GPU训练模型或者预测模型的研究基本都是基于性能的,而且基于深度学习任务本身的特殊性,大部分的调度算法直接应用在GPU集群上无法取得较好的效果,造成大量的能耗浪费。本文针对上述问题,基于深度学习CNTK平台以GPU集群和容器化资源调度的深度学习相关节能调度技术为主要研究对象,深入分析现有GPU集群特点和现有调度方法的不足,对GPU集群训练和容器化深度学习任务调度提出减少能耗的解决方法。本文主要工作如下:(1)首先,本文分析了深度学习训练GPU集群节能的可行性和解决思路,并定义了能耗度量模型,提出了一种针对深度学习训练的GPU集群的节能调度算法;(2)其次,本文针对新出现的基于容器化资源调度的深度学习场景,对其提出了深度学习容器化资源最小能耗的整合方案以及基于延时的全局动态扩箱装箱算法(Delayed Global Dynamic Docker Expanded Packing,DGDDEP);(3)最后,通过设计测试用例,测试了大量的深度学习的数据.经过大量真实数据的测试,验证了所提出的方法在GPU集群上的节能效果,并且针对深度学习容器化资源调度场景,验证了基于GPU和内存使用率双阈值的源容器选择和DGDDEP算法在容器分配时的节能效果。