基于BWDSP的众核深度学习加速器的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sunnymurder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于计算能力和数据量的增长,近年来深度学习在计算机视觉、语音识别和自然语言处理等领域取得了非常出色的成果。随着半导体的尺寸规模已经达到极限,如何设计高效的处理器处理爆炸式增长的数据成为了巨大的挑战。深度学习加速器是针对深度学习和其计算的特点而设计用于加速深度学习计算的特定领域处理器。这些加速器在深度学习的计算中能够取得很高的性能功耗比,多数还能取得高于图形处理器的计算性能。当前的深度学习计算的基础设施和深度学习加速的研究中,众核的架构得到了广泛地应用。本文以BWDSP100的内核作为计算内核的原型,采用算法-硬件协同设计的方法进行了用于卷积神经网络的众核深度学习加速器的研究。本研究工作划分为三个阶段,分别为:以BWDSP100内核为计算核原型,研究卷积神经网络的计算在单核上的实现与优化;卷积神经网络众核计算算法的研究,实现计算性能随着核数增加线性扩展的同时降低硬件指标的需求;适配卷积神经网络众核计算算法的众核片上互连的研究。本文的主要成果如下:1)针对卷积层的计算和多簇处理器的体系结构特点,本文提出了一种粗粒度的并行方式进行卷积层的计算。算法的性能是常规的向量化算法的5.7倍,是常用于GPU的GEMM算法的9.5倍。算法的性能密度是基于其他硬件平台,66AK2H12处理器实现的tiled-based算法的性能密度的4.43倍。2)设计了单核的代码自动生成工具进行面向特定模型的优化,对给定参数的卷积层能够自动生成优化的计算代码。与通用计算函数相比,代码自动生成工具生成的代码的性能提升了 2.33到4.12倍。经过优化后的卷积层的最高计算性能已经接近BWDSP100的理论性能。3)基于抽象并行模型BSP设计了 CNN中各层的众核计算算法。在VGG-16C的测试中,计算性能能随着核数的增加保持线性扩展,且通过合理复用数据、消除冗余传输来降低硬件指标要求,只需要6 GB/s的带宽就能满足56个核计算中的核间数据的传输,使多缓冲区技术下的数据的传输不会阻塞计算,为设计更简单高效的片上互连提供了便利。4)网络层融合(layer fusion)是一种重要的深度学习计算的优化技术,能把相邻网络层的计算合并在一起,消除相邻层间的数据传输和加速它们的计算。本文对该技术进行了扩展,把它应用于特定参数的卷积层和池化层,而不仅仅是逐元素计算的网络层。5)通过分析本文采用的众核计算算法的特点设计了众核的片上互连。本文提出的互连方式并没有采用被众核处理器广泛采用的2D Mesh拓扑的NoC,而是采用更简单高效的总线实现片上互连。并通过采用由一个DMA控制器集中控制核间的数据传输,而不是用所有核主动进行通信的方式,避免总线冲突且移除总线仲裁器和减少片上DMA控制器的数目。经过实验分析,在56个核的配置中,总线的芯片面积是本文提出的核间互连方式的12.88倍,2D Mesh拓扑的NoC的芯片面积是本文提出的核间互连方式的15.08倍。总线的功耗是本文提出的核间通信的核间互连方式的2.42倍,2D Mesh的功耗是本文提出的核间互连方式的3.77倍。6)多缓冲技术可以使计算和数据传输并行进行,提高了计算资源和通信资源的利用率。本文提出了一种轮转三缓冲区的多缓冲区方式,与被广泛采用的双缓冲区相比,可以使片上内存的需求减少1/4。经实验测试,使用56个核,896个乘法器时,本文提出的众核加速器在采用单精度浮点作为数据元素时,计算VGG-16C的性能为719.12GFOPS,在保持核间带宽需求不变的情况下,等效8-bit乘法器的性能为2.88 TOPS。本文提出的众核加速器采用的乘法器的数目远小于基于FPGA的加速器DLA、基于ASIC的加速器TPU和图形处理器K40的,因此本文的测试性能和它们有一定差距。然而众核加速器的等效8-bit乘法器的平均性能是TPU的4.21倍,是DLA的2.67倍和K40的相当,表明本文的设计的资源利用率更高。
其他文献
智能手机越来越丰富的传感器配置,使得在移动平台上进行人类活动识别越来越普遍和直接。近年来随着生活水平的提高,对于应用到医疗、娱乐、辅助生活领域的活动识别系统的需求
<正>近几年来,材料学领域的一大研究热点就是通过控制材料的生长,以合成具有独特和复杂形貌的新型材料。这些独特的形貌将赋予材料独特的物理和化学性质。由于具有高的介电常
近年来,随着我国对外开放程度的不断提高与金融市场的国际化发展,源自西方资本市场的各类公司反收购措施不断被我国A股上市公司所借鉴采纳并加以使用,黄金降落伞即是其中的一种。公司在公司章程或劳动合同中为公司董事、监事及中高级管理人员约定黄金降落伞条款的做法来自于美国资本市场的实践,虽然从诞生之日起黄金降落伞便伴随有诸多争议,但不可否认的是,这一做法已经被市场所广泛接受并得到了诸多国家证券市场监管机构的原