一种目标检测神经网络硬件加速器的设计及验证

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhongjcrazytbag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着硬件计算能力的不断提升以及算法模型的快速更新迭代,人工智能技术在实际生活中拥有广泛的应用。以深度卷积神经网络(Convolutional Neural Network,CNN)为代表的数学模型在语义分割、语义识别、目标检测等计算机视觉领域有着极佳的性能表现。卷积神经网络是一种计算密集型高效算法,目前主要采用通用处理器CPU或GPU完成算法的反向训练和前向推理过程。但是,面对实际应用场景对于硬件的算力和能效比具有极高的要求,算力较低的CPU和功耗极大的GPU不能够充分挖掘算法中的并行计算部分,不适用于边缘计算场景。本文针对此类不足,采用Verilog HDL语言实现了一种具有极高计算并行度的目标检测卷积神经网络硬件加速器,并通过通用验证方法学UVM(Universal Verification Methodology)对其进行功能测试,保证设计功能的完备性。首先,本文以常规的CNN为代表,介绍了此类网络在计算时所需完成的卷及计算、图像填充操作、池化操作、非线性激活函数操作的功能原理和数学模型实现方式。基于卷积神经网络的基本理论算子,着重介绍一阶段和二阶段目标检测主流算法,采用YOLOv3-Tiny作为本次课题主要完成的目标。此外,文章还对UVM中的关键思想进行了简要描述,阐述在对设计模块进行验证测试时所需采取的方法和手段。随后,针对卷积操作的计算方式进行了并行度讨论分析,结合硬件实现方式的难易程度从4个不同的维度探讨计算加速的可行性,考虑采用卷积核内部以及输出通道并行计算的加速方案完成系统架构的设计,同时说明设计中采用的数据格式和数据精度。根据系统架构划分功能模块,分别阐述滑动窗口模块、卷积运算模块、累加模块、池化模块和激活函数模块的功能特点以及实现细节,并使用Verilog HDL完成模块设计。在完成硬件设计后,采用具有可重用性的UVM验证组件搭建模块级验证平台,分别对所设计的功能模块进行验证测试,记录设计过程中产生的错误和遗漏部分,并对其进行修正,使之与设计初衷相吻合。在此基础上,根据模块级验证平台扩展和搭建系统级验证平台,利用平台的高度自动化实现了神经网络算法在硬件平台上的映射,统计分析不同网络层计算结果与软件结果的误差,对硬件加速器的可行性进行确认。此外,将YOLOv3-Tiny映射至该硬件加速器,当时钟频率为200MHz时,加速器每秒可完成14张尺寸大小为416×416×3的图片的目标检测。经过模块级和系统级验证,最终确认所设计的硬件加速器能够正确有效地提升算法计算效率。
其他文献
台风是人类所面对的最严重自然灾害之一。准确估计台风风速(或台风强度)可以帮助人们更有效地进行灾害预测和管理,减少其带来的大量损失。传统台风风速估计方式需要使用搭载风速仪的器具(气象浮标,飞机,船舶等)进行现场测量,难以长时间对广阔海洋区域进行观测且成本过高。卫星遥感探测仪器可以不受气候影响地对台风进行持续观测,但现有方法无法对卫星遥感数据进行有效处理,导致台风风速估计的精度较低。因此,准确台风风速
微波热声成像是一种非侵入式,非电离的生物医学成像技术,在近几年内得到快速发展。它结合了微波成像技术和超声成像技术的优势,提供高对比度、高分辨率和高穿透的成像能力,在乳腺癌、血管成像和脑成像领域均有广泛涉及。在微波热声成像技术中,图像重建算法是极其重要的一环,它直接影响了成像的效率及其结果的质量和可靠性。现有的经典重建算法往往需要在计算效率和重建质量之间进行权衡,并受到硬件设备和数据完整性的影响,产
一些热端部件具有结构复杂、空间狭小等特点而不易使用红外测温、丝式热电偶等常规测温方式进行温度测量,如高速转轴、航空发动机等,同时获取这些热端部件表面温度信息对于监测部件工作状态、热仿真验证等环节又至关重要。因此能够工作在较高温度区间,并且易于与异构部件集成的柔性薄膜传感器在上述极端环境下拥有重要的研究价值和广泛的应用前景。本文以复杂热端部件表面温度测试为研究背景,选取柔性哈氏合金基带作为基底,结合
在目前信息时代高速发展和科技水平发展脚步加快的趋势下,磁场传感器给人类生活带来了便利,提高了生产力的效率,在现代生活发展上也起到了显著的推动作用。在众多传感器中,基于各向异性磁电阻(Anisotropic Magnetoresistance,AMR)的角度传感器是目前在磁性传感器中研究的热门,因为其具备较高灵敏度,能在恶劣环境下工作,集成度高且成本低等优势。随着传感器制备水平的提高,目前商业化Ni
基于物联网技术发展的需求,磁传感器作为一种非接触式感知元器件,已日益不可或缺。其中,基于巨磁阻效应(Giant Magnetic Resistance,简称GMR)的GMR传感器因其尺寸小、功耗低、性能稳定、易于集成等优势,吸引着各国科研人员的广泛关注与研究。本研究针对目前巨磁阻单极开关开关场可调节范围小的问题,提出了双钉扎自旋阀结构,利用交换偏置场易于调整,以可调交换偏置场替代只能在较小范围内改
随着信息时代的到来,物联网技术越来越受到关注。磁传感器作为其应用中重要的载体之一,受到广大科研工作者的关注。磁传感器的压磁系数是一个关键指标,决定了其应用价值和范围,主要是由磁性材料的本征参数所决定。其中,磁电复合材料由于具有较好的磁电耦合特性而被作为磁传感器的磁敏组元。本论文主要研究具有良好的压磁系数的磁致伸缩材料及其与PZT压电陶瓷的复合手段,并对基于得到的磁电复合材料进行了磁敏组元的设计,从
在电磁理论中,格林函数表示单位强度空间某处的点源在一定边界条件下产生的响应(场量)。常用的具有解析形式的格林函数只有在一些特定的边界条件下才能得到,如自由空间格林函数或半空间格林函数等。对于更一般的复杂边界条件,格林函数只能通过数值方法求解得到,即数值格林函数。传统求解数值格林函数的方法包括有限元法、时域有限差分法和矩量法等。利用这些数值方法求解的数值格林函数一般表达为矩阵形式,其运算量与所需存储
近年来,由于声表面波(surface acoustic wave,SAW)传感器具有无线无源、体积小等特点被研究者们广泛关注。特别是在工业生产、航空航天等领域的极端恶劣如高温高压等环境中,SAW传感器拥有广泛的应用前景。但是,极端环境对SAW传感器的稳定性来说是一种挑战,目前成熟的SAW温度传感器最高能够工作在600°C左右,这还远不及上述应用场景下的要求。因此,需有必要研制一种能够稳定地工作于极
人工神经网络作为机器学习中的一个重要分支,随着深度学习的发展,在计算机视觉,自然语言处理等人工智能领域得到广泛应用,使用基于神经网络的方法在这些领域的表现已经逼近或超越人类。为了获得更加准确的决策,人们使用更大的数据集和更加复杂的网络结构,使得神经网络需要更长的训练和推理时间,传统通用芯片如CPU,GPU等显得效率不足。根据神经网络的特点在芯片体系结构上进行定制设计的专用芯片具有更高的效率,更加适
卷积神经网络(Convolutional Neural Network,CNN)是深度学习领域最重要的神经网络之一,被广泛地应用于图像处理和目标识别等方面。随着卷积神经网络层数的不断加深,结果不仅没有变得更好,反而出现了网络退化的问题。为了解决这个问题,He Kai Ming提出了残差神经网络(Residual Neteork,ResNet)。通过在网络中的不同层之间进行残差连接使得网络更容易实现