基于FPGA的卷积神经网络加速器

来源 :浙江大学 | 被引量 : 0次 | 上传用户：wenhui10005

【摘要】

：

目前,通用处理器在神经网络处理方面性能不佳。现场可编程门阵列(FPGA)具有可重构、低功耗的特点,易于适配神经网络的计算过程。虽然神经网络通过稀疏连接、权重共享、池化采

【作者】

：

蹇强

【出处】

：

浙江大学

【发表日期】

：

2004年期

【关键词】

：

神经网络并行计算镜像树结构硬件加速 FPGA

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前,通用处理器在神经网络处理方面性能不佳。现场可编程门阵列(FPGA)具有可重构、低功耗的特点,易于适配神经网络的计算过程。虽然神经网络通过稀疏连接、权重共享、池化采样等技术手段来降低运算的复杂度,但是依然具有计算密集和资源密集的特点,使之难以在资源有限的设备上部署应用。针对上述研究背景和问题,本文主要做了以下研究工作:1、大规模神经网络对资源的要求很高,无法在整体部署在FPGA设备上,本文通过分析神经网络的运算逻辑,将其分解为基本计算单元,并通过复用的方式在卷积运算控制器中嵌入池化采样控制器,减小控制器对资源的需求,使计算模块获得更多资源以提高计算密度。2、传统的神经网络加速器计算核心对通道个数敏感,在通道变化时,计算核心的加速效果并不理想。本文通过镜像树结构,将与通道相关的运算逻辑从硬件结构中分离出去,以保证运算效率。3、在卷积神经网络的反向传播过程中,特征图中有大量的零值元素,导致资源利用率和计算效率降低。因此,采取合适的压缩策略剔除特征图中的零值元素,以压缩存储空间并加快计算速度。实验结果表明,当精度为32位定点数/浮点数时,该实现方法的计算性能达到22.74GOPS。对比MAPLE加速器,计算密度提高283.3%,计算速度提高了 24.9%,对比MCA(Memory-Centric Accelerator)加速器,计算密度提高了 14.47%,计算速度提高了 33.76%,当精度为8-16位定点数时,计算性能达到58.3GOPS,对比LBA(Layer-Based Accelerator)计算密度提高了 8.5%。

其他文献

基于应用型人才培养的教学监控体系与实施

从优化师资结构、明确人才培养目标定位、强化毕业设计环节、教学与科研相结合几个方面讨论了应用型人才培养的教学监控体系，并提出了具体的实施办法，以期为我国的工业发展和经

期刊

应用型人才培养教学体系实施

邓氏冠心胶囊治疗气虚痰瘀型胸痹的临床研究

目的观察邓铁涛教授经验方邓氏冠心胶囊治疗冠心病心绞痛气虚痰瘀型的临床疗效.方法选择符合WTO标准,至少有4个月以上典型劳力性心绞痛病人60例,随机分组,分别用邓氏冠心胶囊

期刊

气虚痰瘀胸痹邓氏冠心胶囊

关节清理术对膝骨关节炎患者白细胞介素-18、基质金属蛋白酶-13表达的影响

目的：研究关节镜清理术对膝骨关节炎患者白细胞介素-18（IL^-18）、基质金属蛋白酶-13（MMP-13）表达的影响.方法：选取40位患者行关节镜下关节清理手术,术前术后取患者关节液行IL^-18、

期刊

关节镜手术膝骨关节炎IL-18MMP13

MBM系统性能分析与关键技术研究

Media-based modulation(MBM)是一项新颖的调制技术,它通过改变放置在发送天线附近的射频反射镜的开关状态,从而改变信号从发射机到接收机之间经历的信道衰落,将信息映射到不

学位

Media-based modulation误比特率互信息大规模MIMO物理层安全保密速率

洞庭澄澈之美肝胆透明之洁——读张孝祥《念奴娇·过洞庭》

南宋爱国词人张孝祥的(念奴娇·过洞庭)写景是辅助手段,论事是目的。作者起笔描绘洞庭澄澈,明河星辰,落笔却在塑造拔天耸地的自我形象上。从中不难看出词人冰清玉洁的品格和

期刊

洞庭美肝胆洁形象高

“知识变现”能走多远?

<正>从互联网免费获取消息和新知已经是每个人生活中最稀松平常的部分,如果现在开始收费,人们或许很难接受,但若与你分享观点的是明星网红,帮你解决问题的是某个领域的专业大

期刊

知识变现问答平台知识付费果壳网

从视觉感知到神经网络特征提取的图像质量评价

图像在人们的日常工作生活和许多专业研究领域中有着广泛的应用,数字图像处理技术也随着计算机和网络技术的进步而迅速发展。图像质量评价(Image Quality Assessment,IQA)的

学位

图像质量评价立体图像质量评价局部纹理描述卷积神经网络特征提取支持向量回归

基于FPGA的卷积神经网络加速器

其他学术论文