卷积神经网络存储加速优化关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:tops881017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,深度学习技术已经深入到工业、服务、医疗、军事等各个领域。人工智能算法在某些领域已经能够比人类工作的更加出色。因此深度学习技术越来越成为学术界和产业界的研究热点。而优化现有的深度学习算法,充分发挥当前硬件的全部性能是算法能否稳定成熟应用于实际生活的关键。因此,本文对卷积神经网中的存储和计算加速优化展开研究,从多个角度分析了卷积神经网的网络和计算特性,并针对几种具有代表性的卷积神经网的存储和计算加速问题展开分析、求解和验证。本文的创新点主要包括:·研究分析了基于分块矩阵分解的卷积神经网GPU显存优化方法(第二章)我们提出了三种分块的GPU显存优化算法,即分块LU分解算法,分块Cholesky分解算法和分块异构CPU-GPU算法。我们的工作获得了以下几个方面结果:首先,这三种算法首先解决了传统的卷积极限学习机ELM-LRF因为受GPU设备上的全局内存大小限制,无法解决大规模的Moore-Penrose矩阵求逆问题(MPMI)这一挑战。其次,根据在ELM-LRF模型中矩阵特征(当H’H矩阵为正定时)加速MPMI而提出了一种有效的分块Cholesky分解算法。实验结果表明分块Cholesky与分块的LU分解算法相比,实现了大约2倍的加速比。第三,提出了一种异构分块的CPU-GPU加速算法,以充分利用GPU节点上的资源来加速MPMI。实验结果表明,这种方法的性能是比分块的Cholesky分解算法高5%-10%。·提出了大规模卷积神经网虚拟混合存储算法(第三章)我们提出了一种名为虚拟混合存储技术(mm CNN)的新型GPU内存管理策略。据我们所知,我们的工作是最先提供一个完整的,以推断任何内存容量大小加速器上的任何规模网络的解决方案。我们在主机和设备之间使用分块异步数据传输,使整个网络看起来像在具有无限内存容量的加速器中运行。在上述思想的基础上,该工作进一步优化了内存管理策略,平衡了数据转换和计算。我们使用异步数据转换技术来借助计算时间覆盖额外的数据传输时间。这样整个系统运行效率更高,速度更快。在我们的实验中,我们在GPU平台上可以以极小的内存大小(低至5MB)正确运行前馈CNN过程。与最先进的相关工作“v DNN”相比,这一结果进一步节省了90%以上的显存开销。我们的工作提高了存储受限的人机交互设备的可扩展性。这项工作使一些交互式应用程序,如在本地移动设备上运行面部识别成为可能。·提出了基于图像合并的高速卷积神经网GPU加速算法(第四章)在本章中,我们提出了两种调度算法来优化图像检测任务中的推断前馈计算。第一个是用于加速CNN前馈过程的高效图像组合算法,我们提出了一种组合图像卷积算法,该算法在大多数主流CNN加速架构中都能很好地工作。该算法可以进一步提高整个网络的前馈速度,提高GPU卡的使用率。鉴于算法中的超参数直接影响系统性能,我们根据整个网络架构提出一种参数选择算法。该算法可以根据某个实验平台在短时间内获得一组合适的参数,并提供相对良好的性能。同时CNN的前馈过程还面临着可扩展性挑战,训练CNN模型随着网络深度的增加,在GPU上消耗越来越大的存储空间,并且使用CNN在具有有限存储器大小的GPU卡上来检测的图像目标是一个难题。所以进一步地,我们对我们提出的这个方法的可扩展性进行了研究,提出了一种是轻耗显存算法,可以在牺牲一定速度的情况下处理大规模的CNN模型。实验表明,我们的方法在不同的平台上运行良好,并实现了令人印象深刻的加速性能,在大尺寸图像上有接近1.7的加速比,在小尺寸图像上有接近7的加速比。·提出了用于快速人脸检测的全GPU实现的批量多任务级联卷积网络(第五章)我们提出了一个基于全gpu实现的批量多任务级联卷积网络,该网络在每个步骤中都经过针对GPU平台的精心设计和优化,以获得卓越的速度性能。此外,我们提出了一种新颖的并行内存分配策略,进一步使我们的算法能够支持批量操作,从而显着提高系统吞吐量。这种方法可以帮助我们快速地在GPU平台上部署训练好的人脸检测模型。在我们的实验中,我们在480p图像上以300fps运行前馈CNN过程。与最先进的相关工作“MTCNN”相比,这一结果显着地进一步提高了超过600%的推理性能。我们的工作以更快的方式实现了面部检测应用程序,远远超过了实时性能,使该应用程序更加实用和强大。
其他文献
化工行业是国民经济的支柱产业之一,也是工业部门中的能耗大户。精馏是目前化工生产领域应用最为广泛的分离工艺,同时也是能耗较大的单元操作,其能耗约占整个化工工业用能的40%左右。因此提高精馏过程的能源利用效率对于推进化工行业进一步节能减排,实现社会经济的可持续发展具有重要的意义。随着进料混合物组分数的增多,要得到混合物中各组分的高纯度产品,精馏序列种类数几乎呈爆炸式增长,所以采用快速、准确地选择节能精
水稻二化螟(Chilo suppressalis)分布广泛,是水稻上的主要害虫之一。近年来在我国南方地区发生严重。随着免耕栽培、轻型栽培等栽培技术的推广,水稻二化螟在建湖县有上升的趋
目的:银屑病(psoriasis)是一种免疫相关的慢性炎症性皮肤病,以寻常型银屑(psoriasis vulgaris)病最为常见,病情常反复发作,还可合并关节病变、心血管疾病及代谢综合征等其它损害,患者生活质量受到较大影响。银屑病发病机制尚未完全阐明,目前研究认为免疫细胞及其相关细胞因子在银屑病发病机理中至关重要。本研究主要通过检测寻常型银屑病患者皮损中转化生长因子β1(transforming
回音壁模式(Whispering Gallery Mode,WGM)光学微腔具有很高的品质因子和较小的模式体积,能极大地增强腔内光场与物质相互作用,因此对外部环境的变化极其敏感,已经成为超高灵敏光学传感的优异平台。利用回音壁模式光学微腔可实现对生物化学分子无标记、低极限检测,具有非常广阔的应用前景。本论文利用荧光掺杂的微球腔,围绕WGM光学微腔高灵敏生物传感检测展开研究,主要工作有:(1)依据实验
现有的水下三维重建方法大多沿用空气中的三维重建方法,由于水体对光的吸收和散射作用远远大于空气,所以空气中的三维重建方法直接应用于水下时,重建精度较低。本文对空气中
随着社会经济的快速发展,生态环境承载的压力负荷日益剧增,地下水生态的潜在风险也日益增大。地下水生态风险评价与管理是生态风险评价管理中至关重要的组成部分,也是地下水污染防治工作的关键课题。然而,系统性的地下水生态风险评价理论和方法体系到目前为止还未被建立,地下水生态风险管控措施仍亟待深化提高。为了生态环境保护和社会经济的可持续发展,亟需进行流域尺度地下水生态风险评价和管控研究,为流域水土污染综合整治
一些机器或简单装置中因存在转矩,其转动的线、绳在负荷状态下可能出现打结,造成仪器设备损坏或线、绳破断、甚至引起人身伤亡。转环接头可以释放转动装置中的转矩,避免了转
城市轨道交通与公交末班车的时刻表衔接状况一定程度上能够反映出城市公共交通的整体服务水平。在城市经济快速发展与公共交通由线状到网状结构的发展过程中,居民逐渐对城市公共交通的末班车出行有了更高的需求。怎样科学合理的有效安排城市公共交通的末班车发车时刻成了当前亟待研究解决的关键问题。本篇文章对城市轨道交通和公交的网状交通线路结构的优化衔接问题进行了研究,相关内容如下:(1)总结末班车时刻表的编制现状,对
随着生物信息学的发展,产生了海量的微生物组学数据。研究者发现微生物群落的组成和结构与人体各种疾病有着密不可分的关系。深入研究微生物-疾病的关联关系,才能进一步解释糖尿病、肥胖、抑郁症等各种复杂疾病的发病机制。微生物-疾病关联研究也成为当前生物信息学研究的前沿热点,由于微生物群落结构比较复杂,使得微生物-疾病关联的研究变的比较困难。微生物主要由细菌、真菌和病毒组成,病毒感染人体是通过其蛋白质与人体的
青年是国家的希望、民族的未来,青年的价值取向决定了未来整个社会的价值取向。广大高中生是青年群体的重要组成部分,此阶段的学生正处拔节孕穗期,亟需正确价值观念的引导。社会主义核心价值观是中华文化中的核心价值理念,新时代要加强学生的思想道德建设,重视通过“以文化人”“以文育人”的形式对青少年进行社会主义核心价值观教育,提高学生思想意识的发展水平。培育社会主义核心价值观是《文化生活》课程的重要内容,从“文