基于FPGA的卷积神经网络硬件加速器设计及应用研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:ocean_30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着越来越多的学者、研究员投入人工智能领域,人工智能算法取得了飞速的发展。作为人工智能算法中极为重要的一部分,神经网络算法也取得了巨大进步:计算机视觉应用中越来越多的使用卷积神经网络代替传统方法,其在人体行为识别应用中表现较为显著。但是,为了进一步提高神经网络的性能,神经网络模型的结构设计越来越复杂、网络层数也越来越多。这导致神经网络算法的计算更加复杂,在功耗要求严格的场景下难以部署。因此,计算资源丰富、开发部署灵活、功耗更低的FPGA成为实现神经网络算法的一种较为理想的硬件平台。本文以卷积神经网络为研究对象,以FPGA为目标平台,对卷积神经网络硬件加速方法进行研究,设计硬件加速器并基于加速器设计人体行为识别系统进行加速验证,具体工作开展如下:1、首先分析了现有加速方法的特点,结合卷积神经网络的结构特点及计算特点,从卷积神经网络计算中数据访存、计算两个方面入手,研究设计硬件加速器。针对卷积神经网络的并行性特点,提出三种并行处理相结合的方式,来展开卷积循环,以减少循环次数;结合FPGA并行计算特点以及资源情况,设计、优化了卷积层、全连接层;利用流水线处理方式,设计缓冲结构加速流水层;采用并行流水策略提高各模块使用效率。利用本文提出的方式,结合Vitis AI平台最终在ZCU102评估板上测得VGG-16网络吞吐量为615.9GOPS。2、提出了一种卷积神经网络结合机器学习的人体行为识别方法,采用该方法设计应用系统,同时验证卷积神经网络加速器的性能。首先提出一种人体姿态估计与姿态分类结合实现人体行为识别方法,设计两个卷积神经网络模型以自顶向下的方式实现人体姿态估计,并在Vitis AI平台上对网络模型进行量化、测试;利用姿态信息数据构建数据集,训练SVM实现能区分三类人体行为的姿态分类器。然后根据应用系统计算特点分割计算任务,设计软硬件协同加速系统,利用设计的加速器承担卷积神经网络计算。最后利用ZCU102评估板实现人体行为识别系统,经测试系统稳定时最高能达到25FPS的处理速度,并能正确识别行走、站立、蹲下等姿势。
其他文献
为研究聚酯切片真空干燥工艺对切片含水量的影响,本文利用Fluent软件建立聚酯切片真空干燥模型,对不同工艺条件下切片的含水量进行模拟计算,结果表明,温度越高,初始含水量越高,真空度越高,堆积厚度越小,聚酯切片层平均含水量下降的越快,干燥速率越快,所需干燥时间越少。利用模型得到了不同含水量聚酯切片真空干燥的适宜工艺条件。聚酯切片含水量要达到50 mg/kg以下,初始含水量为2000 mg/kg时,切
基于卷积神经网络的深度学习算法的检测识别精度已远远超过了传统模式识别算法,但卷积神经网络中的卷积、非线性激活等运算,需要巨大的算力才能高效率实现,这使得很多深度学习算法模型难以在算力限制的嵌入式平台上进行部署。以目标检测算法YOLO-V3为例,针对网络的不同层设计了对应的FPGA实现方法,并且特别针对卷积层设计了分片分块并行运算的运算单元,最终在FPGA中实现了一种目标检测硬件加速器。该加速器可充
就聚酯连续生产中怎样提高真空系统运行稳定性进行了探讨,对工艺进行技术改造,重点介绍运行中的真空系统清洗情况以及实施后效果
<正>徘徊在壮丽的山河间,留恋在金黄的田埂上,定格在欢快的笑靥中……在第3届"建设新农村的银行"摄影比赛作品评选现场漫步,一幅幅灵动的画面跃然眼底,新农村这片希望的田野生机勃勃。一串串沉甸甸的果实,一张张质朴可爱的笑脸,一片片金灿灿的麦田
期刊
<正>疫情此起彼伏,远游多被搁浅。于是在城市近郊露营,成了当下人们度假的热门选择。露营也有“前世今生”露营起源于欧美,最早只是拓荒者野外生存的一种方式。后来,露营承担一部分教育功能,成为培养青少年野外生存能力的一种载体。如美国在上世纪的二三十年代,就在大学开设了野营专业工程,并在中小学逐步推广野营活动。
期刊
学位
近年来,随着深度学习理论算法的发展和硬件算力的提升,卷积神经网络被广泛应用在众多领域。然而卷积神经网络的参数量、计算量的增加,使得在嵌入式、移动端等终端设备上部署难度加大。网络剪枝可以有效减少网络模型的参数量、计算量,但是剪枝导致网络连接呈现不规则性,使得现有的加速器难以利用网络稀疏性进行加速。为了改善上述问题,本文提出了能够充分利用网络稀疏性特点的稀疏卷积神经网络加速器。论文的主要工作如下:(1
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的
期刊