面向新型卷积神经网络的FPGA硬件并行加速研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zhangchaoyi222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为众多深度学习中最热门的算法之一,卷积神经网络(Convolutional Neural Networks,CNN)在计算机诸多应用中都取得了很大的成功,广泛应用于语音识别、图像分割、图像识别等领域。为了提高网络性能,网络层数和规模逐渐增加。但是,简单地依靠网络层数增加的方式遭遇到了瓶颈,因此一些新型卷积神经网络相继被提出,比如反卷积神经网络和复杂连接的卷积神经网络。这些网络模型的结构更加复杂,计算复杂度也随之大幅增长。传统的CPU通用处理器由于自身并行度低和计算能力有限,已难以满足现代卷积神经网络的计算需求。因此,为了使得卷积神经网络能够实现大规模应用,许多针对卷积神经网络的硬件加速器相继出现,比如GPU、FPGA以及ASIC。由于FPGA具有可重构、并行计算资源丰富和低功耗的特点,使得其成为卷积神经网络加速领域上的热门硬件平台。之前基于FPGA的硬件加速工作主要聚焦于传统卷积神经网络加速器的设计和优化,但是面向新型卷积神经网络的FPGA硬件加速器设计研究还很缺乏。在本文中,我们提出了一个基于FPGA的稀疏反卷积神经网络加速器体系架构。我们在Xilinx VC709开发平台上实现了我们的设计,评估了加速器的资源利用率。最后,测试了四种反卷积神经网络模型在该加速器上的吞吐量和能效。随着深度学习的发展,卷积神经网络结构越来越复杂,参数规模越来越大,计算和存储需求也越来越高,单个FPGA有限的片上计算和存储资源难以满足映射整个网络的需求,使得单片FPGA的加速效率难以提升。在本文中,我们提出了一个在多FPGA平台上加速复杂连接的卷积神经网络的高效设计流程,包括有向无环图(DAG)抽象、映射方案生成和设计空间探索。最后,本文搭建了一个支持FPGA间灵活通信的多FPGA系统用于评估和验证提出的设计。本文选择Goog Le Net、Dense Net和LNS-net三种复杂连接的卷积神经网络模型进行测试。实验结果表明,本文提出的基于多FPGA系统的设计在吞吐量和能效上远高于CPU和GPU。
其他文献
一维条形码是一种数据编码载体,是由含有商品信息的字符或数字编码而成的一串不同宽度的黑色矩形条纹图案,解码后可以得知条形码表达的原始信息。在物流销售、仓储管理、产品流水线控制等领域,计算机系统使用一维条形码对商品进行管理,有利于控制商品信息传输。一维条形码通常通过人工操作激光扫描设备方式进行读取解码,在现代工商业环境下,人工作业的传统方式已难以满足商品高速流转需求,同时也造成了人力资源的浪费。在数字
随着导弹技术的日益发展,导弹机动突防能力越来越强,依靠单枚导弹或多枚无协同导弹对机动目标实现成功拦截的难度越来越大。基于协同的多导弹系统具有作战范围大、毁伤效果强、突防或拦截的成功率高等特点,是实施饱和攻击和高效拦截的有效手段,已成为未来新型作战的研究热点之一。论文以多导弹协同拦截问题为背景,开展基于观测器的目标机动估计和考虑视线角约束的协同制导研究,以提高目标机动信息未知情况下多拦截弹系统的制导
近年来,各种突发事件在世界频发,特别是地震灾害造成了巨大的生命和财产损失,使得应急管理成为世界各国关注的热点。作为应急管理的重要组成部分,应急资源调度的效率决定了指挥决策者在突发事件后能否制定出有效应对突发事件的资源协调方案,最小化突发事件产生的危害影响,保障人们的生命财产安全。资源分配和资源运输是影响应急资源调度效率的两个核心关键问题,本文对其进行了深入研究,主要工作为:(1)针对应急资源分配问
在现场标定过程中,实验室所用的转台精度高、体积大,而在实际重力测量过程中,难以提供如此高精度的三轴转台,而加速度计组件的参数稳定性较差,存在参数漂移问题和逐次启动不重复性误差,需要对加速度计组件进行现场标定。因此,为降低标定方法对高精度转台的依赖,本文研究了多种加速度计现场标定技术,为保证加速度计参数的可观性,本文选用精度相对较低的双轴转台为标定提供足够的观测位置。本文的主要工作如下:1.研究了静
以常导高速磁浮列车相对位置传感器模拟检测与诊断技术为研究对象,提出基于等效负载的检测方法模拟传感器在实际轨道上的工作状况;针对检测方法存在的缺陷进行分析,提出三种优化方法并进行验证和对比;在此基础上,采用KPCA对传感器进行离线故障检测和诊断;最后将等效负载检测方法和传感器故障诊断算法进行了工程实现,设计了一套传感器离线测试台。主要研究内容如下:1、建立了传感器等效电感模型,对等效负载检测方法进行
随着信息技术的不断发展和网络基础设施的不断建设壮大,移动互联网已经成为当今互联网的主要组成部分,针对移动互联网的取证研究和流量分析等领域的重要性日益凸显。针对移动互联网的数据研究以人为捕获的移动端流量为基础,如何高效率地捕获具有详细信息的流量数据是当今移动流量研究的难题之一;移动互联网流量以各类APP产生的流量为主体,通过对移动APP的逆向研究辅助移动互联网流量研究也是常用的技术手段之一。本文首先
数据驱动的深度学习方法因其强大的特征提取能力已经被广泛用于雷达自动目标识别的研究。深度学习能够自动从大量的训练样本中学习数据的特征。与传统的机器学习方法相比,深度学习有更强的提取目标的语义特征的能力,在识别任务中通常有更好的性能。但通常情况下,有标签的雷达数据比较少,不能满足深度学习的训练要求,会导致严重的过拟合现象。此外,雷达传感器容易受到噪声的干扰,雷达回波受其与目标之间的相对角度以及相对位移
随着深度学习的不断发展,基于深度神经网络的应用越来越广泛,并在很多应用领域上取得巨大成功。但是,由于神经网络模型尚缺乏合理的可解释性,导致基于神经网络的系统在安全性和可靠性保障上面临巨大挑战。鲁棒性(Robustness)是衡量神经网络模型安全性和可靠性的重要属性。当前研究重点关注的是神经网络的局部(Local)鲁棒性,即神经网络模型N在给定样本x0以及扰动范围δ的前提下,样本空间中满足‖x-xo
以高速磁浮列车主动导向系统为研究对象,在建立基于搭接结构的导向系统数学模型的基础上进行控制器设计与仿真实验。针对导向系统在列车实际运行过程中可能出现的电磁铁故障和传感器故障以及端部涡流问题展开容错控制方面的研究。主要内容如下:1、在分析导向系统的结构组成、工作原理及控制方案的基础上,建立了导向系统的标称数学模型。并把系统可能受到的扰动和发生的故障考虑到其中,建立导向系统的故障模型。2、采用线性二次
随着互联网的飞速发展,用户、企业、运营商和政府对网络的要求也越来越高,这其中既包含了对服务质量的高要求,也包含了对网络安全的高要求。大量测量机构对互联网展开了大规模的测量,得到了海量的测量数据,这些数据中隐藏着互联网的拓扑结构、连通特性、基础设施运行状态等等诸多信息,研究者通过对这些信息的挖掘与分析,为网络建设和网络安全提供帮助。与此同时,也有很多研究者利用这些数据对互联网协议、路由等展开研究,以