论文部分内容阅读
由于卷积神经网络模型结构复杂且计算量大,实际应用中一般采用多GPU的方式对其进行并行训练,快速地完成卷积神经网络的快速训练。为了提高卷积神经网络的并行训练效率,同时解决在并行训练时通讯缓慢以及数据加载时等待的问题,提出参数通讯以及数据加载两个方面的优化策略。在参数通讯优化方面,将梯度计算和参数通讯同时执行,利用计算时间来覆盖通讯时间。通过改变通讯方式,利用归约和冗余通讯方式减少参数通讯时的同步等待时间。利用预加载和异步拷贝的方式将数据提前加载并拷贝到GPU显存空间,减少数据加载带来的时间消耗。实验结果表明