一种高性能的硬件加速器

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:logoxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉作为人工智能的重要领域,在迅速发展的同时,对于嵌入式产品也提出了越来越高的性能。作为计算机视觉的常用技术,卷积神经网络CNN(Convolutional Neural Network)已被用作图像识别、图像检测、图像分割等任务。鉴于CPU、GPU、专用芯片ASIC等都存在各自的问题,可编程门阵列(Field Programmable Gate Array,FPGA)以其高性能、高能效、高灵活性的优点被广泛应用于CNN的计算加速。但是FPGA在设计过程中会存在带宽与片上资源未能很好平衡的问题,从而影响性能。针对以上设计瓶颈,在Xilinx ZC706开发平台上设计了一个高性能的卷积神经网络加速器。ZYNQ是一种支持软件和硬件协同开发的So C平台。本论文在ZYNQ平台上采用ARM+FPGA的模式进行设计开发,在FPGA上用Verilog代码设计硬件加速器的硬件电路,利用ARM进行系统的参数控制与调度。本文设计了可配置的系统架构,通过软件对系统进行控制,结构上可支持VGG16、Yolo-v2-tiny、Rest Net等卷积神经网络的加速。目前通过了Yolo-v2-tiny的仿真与验证。通过性能模型的建立与分块方案的设计,能够从理论上给出高性能策略。再通过硬件的设计与优化,可最大程度提升硬件加速器的性能。本论文的详细工作内容如下:首先,提出了一种建立性能模型的流程方案。针对神经网络的计算量进行循环展开与数据复用进行分析,利用参数共享降低了数据存储量。并基于Roofline模型,有效针对多方面影响因子,提出了一种建立性能模型的流程方案。可估算出在硬件平台上对神经网络进行加速的峰值性能,以及达到此性能所采用的分块策略。其次,设计了高性能的硬件加速器,可通过软件对分块策略的参数进行提取,然后对加速器进行配置。加速器设计了三级控制器进行调度,利用了三级缓存机制以及DMA(Direct Memory Access)的并行传输,对数据缓存、数据传输、输出模块进行了优化,提高了对整体带宽的利用率。设计了输出导向方式的卷积处理单元,支持多种卷积尺寸和卷积步长,从而支持多种神经网络结构。针对DMA的传输需求,设计了数据变形处理模块,可以将位于片上存储的数据进行变形,顺序输出至DMA。最后,完成Yolo-v2-tiny的仿真及板级验证。并为硬件加速器搭建一个视频展示系统,在实际场景中进行应用,最终实现物体的实时目标识别,识别帧率达21.9fps。本文用了448个DSP,极限性能可达179.2GOPS,本文在考虑多种约束条件下对性能进行建模计算,得出Yolo-v2-tiny的平均性能最高能达到133GOPS。板级实验结果表明,加速器的工作频率为200MHz,平均性能约为118GOPS,达到了性能模型的89%,能效比是32.33GOPS/W。与近几年来的加速器相比,本文的硬件加速器可以提供更高的性能,较之CPU E5-2620,性能是其7倍,能效比是其162倍,较之GPU NVIDIA K40,能效比是其19倍。
其他文献
基于压缩感知的信号处理技术无需遵循奈奎斯特采样定理,能有效减少传输的数据量进而降低设备的能耗,适用于需要处理大规模数据但资源极度受限的场景。例如在物联网的传感器网络节点中,由微小电池供电的设备难以处理和传输不断增长的庞大数据量。压缩感知的出现提供了新的解决方案,因此受到了广泛的关注和研究。然而,经过压缩的信号在重构过程中会损失部分精度,为了提升恢复效果,需要使用适宜的测量和重构方法,性能良好的测量
在图形学流体模拟领域中,SPH方法已经逐渐成为模拟流体的主流方法。SPH方法的基本思想是把流体计算空间离散成一个个粒子,通过核函数估算的方式对每一个粒子进行受力分析,在力的作用下移动粒子,从而形成流动的液体。其中,光滑长度的大小非常重要,很大程度上决定了核估算的精度。如果光滑长度太小,则支持域内没有充足的粒子,核估算会带来很多误差,严重降低计算的精度。如果光滑长度太大,则支持域内粒子数过多,削弱了
公路运输是我国重要的运输途径之一,每年承载着超过三百亿吨的货物运输量。目前,我国货物运输的主要形式是以货物运输管理平台为枢纽,由各运输管理平台掌控着货物运输的需求,而货运驾驶员一般以1-3人为主,也接入到管理平台进行驾驶员安全监管和绩效分析。随着对车辆驾驶员监管力度的提高,通过车载终端等设备和运输管理平台来记录和分析车辆运输安全状况及驾驶行为十分必要。如何利用管理平台的大数据挖掘有用的信息,用于规
近年来,人脸识别作为一种基于脸部特征信息进行身份识别的生物识别技术,在智能安防、金融交易、公共交通等领域都有着广泛应用。随着硬件性能的提升和软件算法的改进,人脸识别技术也日趋成熟。不过,由于人脸在不同姿态下差异性很大,对大偏角的人脸图像进行识别仍然存在许多挑战;同时,多姿态人脸数据库的样本不足会对后续的多姿态人脸识别模型训练造成一定困难。针对上述问题,本文提出了基于生成对抗网络的人脸转正算法和多姿
客流统计技术是当前城市智能公交发展的研究重点,随着大数据的发展,如何精确获取客流数据具有重要的研究价值。通过统计站与站、线路与线路之间的实时客流量,分析市民出行“起点-终点”情况,动态指导公交管理部门制定运营计划,从而实现公交线网的优化、调度、预测以及公交资源利用的最大化。然而,由于公交车内特殊的场景环境,乘客非刚性、光照干扰、车身抖动严重等一系列问题,使得目前还没有一套较完善的解决方案。针对上述
随着我国的交通基础设施发展迅速,公路建设是其中建设的重点,路面裂纹检测技术对于道路维护,行车安全,交通通行效率有着重要作用。近年来,基于深度学习的路面裂纹检测技术取得了长足发展。但是基于深度学习的路面裂纹检测还存在一些不足,首先,深度学习的训练过程需要大量标注数据,标注大量路面样本费时费力。其次,在采集路面数据过程中,有无裂纹类别的数据量是不平衡的。大部分路面图像都是无裂纹的,这些无裂纹图像若交由
就目前而言,绝大多数的便携式电子设备是使用原电池作为其主电源,而电池的体积限制了这些电子设备往小型化、微型化的方向发展。一些新兴的超低功耗应用,如无线传感器节点和植入式生物医学设备,利用太阳能电池、温差发电机、压电材料等能量采集器从周围环境提取能量来摆脱电池供电的问题。但采集到的能量随环境变化而变化,导致能量采集器的输出电压无法直接供电,因此需要DC-DC转换器进行电压转换。电荷泵作为DC-DC转
情感本质上是人类思想和心理活动过程中的产物,能够影响人类的行为活动。当前社会中存在着不少无法正常控制情感的患者,一旦他们产生不健康的情感,会给社会和生活带来消极的影响,因此,关于如何有效地识别情感方面的课题研究是有意义的。随着脑电科学研究和AI技术的不断发展,在情感计算中结合机器学习和深度学习算法对生理信号数据进行建模分析,可以比传统的信号分析方法更有效地识别情感。但是,由于生理信号数据在采集时容
全无机卤化钙钛矿量子点由于其具有可见光范围可调控性、较窄的发射光谱、更宽的吸收光谱以及颇高的荧光量子产率等优势被广泛应用于太阳能电池、背光显示的白光LED器件、激光器、光电探测器等重要的光电器件当中。对于无机卤族钙钛矿材料而言,其离子晶体的特性导致其在极性环境中稳定性较差。为了改善该体系的系列稳定性问题,本论文从两个维度出发:结合对Pb-X化学键的改进手段,系统研究了Te元素掺杂对钙钛矿稳定性的影
二维纳米材料由于其特殊的结构而具有独特的理化性质,这些特性使得其在光电器件、能量存储和转换等领域显示出优异的性能,具有重要的技术应用价值。硒化锡是Ⅳ-Ⅵ族具有层状结构的材料,室温下是正交晶体结构,其带隙与太阳光谱匹配较好,在光电领域具有技术应用价值;此外,硒化锡具有超低的晶格热导,表现出很高的热电性能,在热电能源转换领域也得到了广泛关注。本论文采用化学气相沉积法,制备出高质量的单晶SnSe纳米片以