面向云端FPGA的卷积神经网络加速框架研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:wangwang09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度神经网络的发展极大地提高了学术界和工业界的图像和视频分析质量。其中,卷积神经网络是图像处理领域极具代表性的方法,其有效性已在各种机器学习应用中得到证明。卷积神经网络整体规模的扩大带来的网络参数和中间结果的增长对硬件资源的需求发起了挑战,并一定程度地限制了卷积神经网络的实时和低功耗应用,而卷积神经网络算法的数据流模式使它们非常适合于硬件加速。针对上述卷积神经网络计算密集、软件实现方式无法适用于实时和低功耗应用场景的问题,在云中使用FPGA为快速和节能的卷积神经网络推理给出了出色的解决办法。FPGA有望为移动(例如无人机或自动驾驶汽车)和云计算领域的卷积神经网络的高性能和低功耗计算发挥重要作用。然而,在FPGA上实现有效且高效的卷积神经网络系统具有挑战性。针对上述问题,本文提出了一种面向云端FPGA的卷积神经网络加速框架。通过对加速器核心和网络功能层模板设计来实现基于高层次综合技术的可综合模板函数库设计;从软硬件划分、系统架构和加速框架生成流三方面分析卷积神经网络加速框架生成架构;分析网络任务模型与软硬件平台的映射关系,将任务合理分派给处理器和云端FPGA,构建任务-资源调度模型以及从数据流、控制流两方面对该模型设计调度优化方案,实现了网络模型向云端FPGA的映射和对软硬件端任务资源的合理调度。在实验评估部分,选取典型的卷积神经网络模型为实验对象,评估加速框架产生的系统性能,然后将其与软件版本以及其他已有研究中的FPGA实现进行比较分析。其中与CPU实现方式相比时,展示出更好的性能和能效表现,与GPU实现方式相比时,虽然性能更差,但是能效更高;并且达到与已有研究工作相当的性能的同时具有更好的功率效率潜力。实验结果证明,本文提出的加速框架可以满足新兴的计算和能源效率要求,并且可以显著提高FPGA上神经网络的整体设计效率。与其他基于云的平台(例如GPU或TPU)相比,本文的设计提供了替代解决方案,同时提供灵活性,低能耗和高性能。还提供其他功能,例如支持量化网络模型,以及平衡片上资源的使用。
其他文献
学科建设是高等教育改革和发展的重要内容。高校图书馆外文期刊的藏用状况与学科建设和发展有着密切的关系。本文通过对中国科学技术大学读者利用外文期刊文献的统计分析,结
朱伟华同志在《以“档案存放指引戳”替代“档案库房存放档案指引表”的尝试》(见《档案与建设》1987年第5期)一文中认为,运用档案存放指引戳查找库房档案比档案库房存放档案
期刊
“十一五”规划提出的主体功能分区战略对我国城市化发展提供了新的推进模式。在土地利用规划或城市规划中,采用开发建设优先或保护利用优先的不同划定思路,必然会相应产生不
查找电缆断点是电缆维修中的难题,为此,我们对原来的电缆断点测试仪进行了改进,研制出了可以测试各种电缆并有语音提示功能的电缆断点测试仪,本文详细地介绍了这种语音提示电
多元化纠纷解决机制之间存在着复杂的关系,并不能简单的以“司法中心结构”的纠纷解决模式来概括。从镶嵌的视角来看,不同的纠纷解决方式都处在特定的社会结构之中,受相应的
新疆是我国面积最大的省区,位于西北边陲,有着特殊的地理位置和特有的气候特征,藻类资源非常丰富,然而藻类区系分类研究却很薄弱。硅藻是一类种类多,数量大,分布极为广泛的真核藻类
【正】 张毕来同志的《略论贾宝玉的鄙弃功名利禄》对贾宝玉思想性格中的一个重要方面提出了自己的见解,说明:贾宝玉并不否定皇权和孔孟程朱的君臣大义,相反,“在日常生活之
以氧化石墨烯和钨酸铋为原料,在水热条件下自组装合成了石墨烯/钨酸铋(RGO/Bi2W06)复合光催化材料,对制备样品的显微结构与性能进行了表征。在可见光照射下,以罗丹明B(RhB)作为目标
美国市场的反向收购(reverse merger)是一个私营企业通过换股(stock exchange)的方式获得美国一个公众公司(public company)控股地位的交易。一个典型的反向收购交易中,公众公
目前锰矿的矿粉、碎矿的浪费是严重的,龙炉矿利用土窑烧结锰矿粉的方法,既不需置设备和投资,且操简单,烧成率很高,在目前冶炼厂的设备条件下,还个失为暂时可以采用的一个有效