论文部分内容阅读
当前,深度学习技术已经深入到工业、服务、医疗、军事等各个领域。人工智能算法在某些领域已经能够比人类工作的更加出色。因此深度学习技术越来越成为学术界和产业界的研究热点。而优化现有的深度学习算法,充分发挥当前硬件的全部性能是算法能否稳定成熟应用于实际生活的关键。因此,本文对卷积神经网中的存储和计算加速优化展开研究,从多个角度分析了卷积神经网的网络和计算特性,并针对几种具有代表性的卷积神经网的存储和计算加速问题展开分析、求解和验证。本文的创新点主要包括:·研究分析了基于分块矩阵分解的卷积神经网GPU显存优化方法(第二章)我们提出了三种分块的GPU显存优化算法,即分块LU分解算法,分块Cholesky分解算法和分块异构CPU-GPU算法。我们的工作获得了以下几个方面结果:首先,这三种算法首先解决了传统的卷积极限学习机ELM-LRF因为受GPU设备上的全局内存大小限制,无法解决大规模的Moore-Penrose矩阵求逆问题(MPMI)这一挑战。其次,根据在ELM-LRF模型中矩阵特征(当H’H矩阵为正定时)加速MPMI而提出了一种有效的分块Cholesky分解算法。实验结果表明分块Cholesky与分块的LU分解算法相比,实现了大约2倍的加速比。第三,提出了一种异构分块的CPU-GPU加速算法,以充分利用GPU节点上的资源来加速MPMI。实验结果表明,这种方法的性能是比分块的Cholesky分解算法高5%-10%。·提出了大规模卷积神经网虚拟混合存储算法(第三章)我们提出了一种名为虚拟混合存储技术(mm CNN)的新型GPU内存管理策略。据我们所知,我们的工作是最先提供一个完整的,以推断任何内存容量大小加速器上的任何规模网络的解决方案。我们在主机和设备之间使用分块异步数据传输,使整个网络看起来像在具有无限内存容量的加速器中运行。在上述思想的基础上,该工作进一步优化了内存管理策略,平衡了数据转换和计算。我们使用异步数据转换技术来借助计算时间覆盖额外的数据传输时间。这样整个系统运行效率更高,速度更快。在我们的实验中,我们在GPU平台上可以以极小的内存大小(低至5MB)正确运行前馈CNN过程。与最先进的相关工作“v DNN”相比,这一结果进一步节省了90%以上的显存开销。我们的工作提高了存储受限的人机交互设备的可扩展性。这项工作使一些交互式应用程序,如在本地移动设备上运行面部识别成为可能。·提出了基于图像合并的高速卷积神经网GPU加速算法(第四章)在本章中,我们提出了两种调度算法来优化图像检测任务中的推断前馈计算。第一个是用于加速CNN前馈过程的高效图像组合算法,我们提出了一种组合图像卷积算法,该算法在大多数主流CNN加速架构中都能很好地工作。该算法可以进一步提高整个网络的前馈速度,提高GPU卡的使用率。鉴于算法中的超参数直接影响系统性能,我们根据整个网络架构提出一种参数选择算法。该算法可以根据某个实验平台在短时间内获得一组合适的参数,并提供相对良好的性能。同时CNN的前馈过程还面临着可扩展性挑战,训练CNN模型随着网络深度的增加,在GPU上消耗越来越大的存储空间,并且使用CNN在具有有限存储器大小的GPU卡上来检测的图像目标是一个难题。所以进一步地,我们对我们提出的这个方法的可扩展性进行了研究,提出了一种是轻耗显存算法,可以在牺牲一定速度的情况下处理大规模的CNN模型。实验表明,我们的方法在不同的平台上运行良好,并实现了令人印象深刻的加速性能,在大尺寸图像上有接近1.7的加速比,在小尺寸图像上有接近7的加速比。·提出了用于快速人脸检测的全GPU实现的批量多任务级联卷积网络(第五章)我们提出了一个基于全gpu实现的批量多任务级联卷积网络,该网络在每个步骤中都经过针对GPU平台的精心设计和优化,以获得卓越的速度性能。此外,我们提出了一种新颖的并行内存分配策略,进一步使我们的算法能够支持批量操作,从而显着提高系统吞吐量。这种方法可以帮助我们快速地在GPU平台上部署训练好的人脸检测模型。在我们的实验中,我们在480p图像上以300fps运行前馈CNN过程。与最先进的相关工作“MTCNN”相比,这一结果显着地进一步提高了超过600%的推理性能。我们的工作以更快的方式实现了面部检测应用程序,远远超过了实时性能,使该应用程序更加实用和强大。