论文部分内容阅读
随着大数据时代的到来,与传统的机器学习相比,具有更多隐含层的深度卷积神经网络具有更复杂的网络结构和更强的特征学习以及特征表达能力。自从引入使用深度学习算法训练的卷积神经网络模型以来,它在计算机视觉领域的许多大规模识别任务中取得了显著的成果。就目前卷积神经网络应用技术的发展而言,算法本身需要对图片等数据进行卷积运算等操作,致使使用CPU会带来运算速度极慢,极高的功耗的也是限制卷积神经网络发展的一大重要因素。此外,在小型、低功耗硬件设备中,嵌入式处理器在运算架构与通用处理器类似,以串行的方式进行运算,故无法实现卷积神经网络中大量、独立的乘加操作。对于DSP来说,虽然其对于乘加运算进行优化,但是依然难以胜任大规模的图像卷积运算。在这种情况下,由于现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)具有快速的开发周期和低廉的成本,可以发挥出其在尺寸、功耗以及并行运算方面的优势。因此,设计一种不依赖于具体应用环境的专用FPGA来提高卷积神经网络的计算速度,将产生巨大的经济价值和社会价值。在基于冯·诺伊曼体系结构的传统计算机中,CPU适用于具有复杂过程但低并发性的场景,难以有效地应对具有极高并发性和简单的单步操作的卷积神经网络计算。经调研得知,卷积神经网络的卷积、池化和全联接三种操作,由并发加乘运算组成的卷积操作的CPU占用率达到70%左右。基于此考虑,本课题开发了一种基于FPGA的卷积神经网络加速硬件模块,以大并发的方式实现卷积计算,进而提升卷积计算的速度。详细介绍了乘法器的实现过程,以及由这乘法器与加法器计算资源构成的矩阵乘法计算模块,还介绍了数据通讯和存储管理等相关模块,所有模块协同工作完成卷积计算。此项研究为完整的卷积神经网络的硬件实现提供了依据和基础,具有较为重要的科研意义和工程价值。