论文部分内容阅读
在线决策是智能实体在非人为干预的情况下,进行自主决策的一种方式,在无人机机动决策、机器人控制和汽车无人驾驶等军用和民用领域都具有广泛的应用前景。相对于专家系统等传统决策算法而言,基于深度强化学习的决策算法能够实现端到端的感知与决策,并且具备在线学习能力,因而在应用中得到了更多的关注。但由于深度强化学习具备计算密集型的特点,应用时通常使用GPU进行算法的训练,进而导致很难在计算资源受限且功耗要求低的端侧系统上进行应用。为此,本课题面向在线决策应用,开展了基于FPGA平台的强化学习算法硬件实现及应用研究,主要研究工作如下:1.围绕设计要求,通过对典型深度强化学习算法Deep Q-Network(DQN)的算法结构分析和FPGA计算资源评估,确定了总体研究方案。主要内容包括:提出了基于软硬件协同计算思想的算法硬件实现架构、完成了算法加速任务的分解、确定了采用流式计算结构的算法硬件加速器设计方法以及明确了算法应用验证方式等四个部分。2.基于算法硬件实现架构与加速任务分解方案,完成了DQN算法硬件加速器的设计。DQN算法硬件加速器是硬件实现中的核心研究内容,针对DQN算法硬件加速过程中同时存在网络的推理与训练的计算特性,同时考虑并行计算时的数据依赖和存取带宽等因素,遵循由内向外的设计思想,完成了加速器中加速算子单元、计算模块和控制模块的具体设计,并对其整体进行封装与仿真验证,以便于对不同的决策应用进行硬件实现。3.针对所设计的DQN算法硬件加速器,进行了并行计算参数的设计空间探索。结合FPGA资源与DQN算法神经网络结构的特点,对加速器消耗的资源和计算时间进行建模分析,以探索加速器应用时的最佳并行计算参数。之后以IP核的形式对加速器进行系统集成,完成了DQN算法硬件实现的调度设计。4.对倒立摆控制决策和无人机自主决策两个应用进行了应用验证。验证工作主要包括应用分析、应用环境建模、加速器参数探索寻优和性能分析等四个部分,测试结果表明了设计的功能正确性,且在决策时间和设计功耗方面均满足设计要求。同时在训练时间与功耗方面与CPU平台和GPU平台进行了对比,测试结果表明,FPGA在训练时间和功耗方面具有一定的优势。