面向在线决策的强化学习算法硬件实现及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hyron2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线决策是智能实体在非人为干预的情况下,进行自主决策的一种方式,在无人机机动决策、机器人控制和汽车无人驾驶等军用和民用领域都具有广泛的应用前景。相对于专家系统等传统决策算法而言,基于深度强化学习的决策算法能够实现端到端的感知与决策,并且具备在线学习能力,因而在应用中得到了更多的关注。但由于深度强化学习具备计算密集型的特点,应用时通常使用GPU进行算法的训练,进而导致很难在计算资源受限且功耗要求低的端侧系统上进行应用。为此,本课题面向在线决策应用,开展了基于FPGA平台的强化学习算法硬件实现及应用研究,主要研究工作如下:1.围绕设计要求,通过对典型深度强化学习算法Deep Q-Network(DQN)的算法结构分析和FPGA计算资源评估,确定了总体研究方案。主要内容包括:提出了基于软硬件协同计算思想的算法硬件实现架构、完成了算法加速任务的分解、确定了采用流式计算结构的算法硬件加速器设计方法以及明确了算法应用验证方式等四个部分。2.基于算法硬件实现架构与加速任务分解方案,完成了DQN算法硬件加速器的设计。DQN算法硬件加速器是硬件实现中的核心研究内容,针对DQN算法硬件加速过程中同时存在网络的推理与训练的计算特性,同时考虑并行计算时的数据依赖和存取带宽等因素,遵循由内向外的设计思想,完成了加速器中加速算子单元、计算模块和控制模块的具体设计,并对其整体进行封装与仿真验证,以便于对不同的决策应用进行硬件实现。3.针对所设计的DQN算法硬件加速器,进行了并行计算参数的设计空间探索。结合FPGA资源与DQN算法神经网络结构的特点,对加速器消耗的资源和计算时间进行建模分析,以探索加速器应用时的最佳并行计算参数。之后以IP核的形式对加速器进行系统集成,完成了DQN算法硬件实现的调度设计。4.对倒立摆控制决策和无人机自主决策两个应用进行了应用验证。验证工作主要包括应用分析、应用环境建模、加速器参数探索寻优和性能分析等四个部分,测试结果表明了设计的功能正确性,且在决策时间和设计功耗方面均满足设计要求。同时在训练时间与功耗方面与CPU平台和GPU平台进行了对比,测试结果表明,FPGA在训练时间和功耗方面具有一定的优势。
其他文献
当今是一个互联网飞速发展的时代,互联网已经不再是一个新奇的东西,它的发展影响到了各行各业,变成了人们学习、生活必不可少的工具,同时互联网的发展也给传统行业带来了很大
道路目标检测技术是智能交通中的关键性技术,其目的是根据道路监控图像检测相应的道路目标,而道路场景背景多样、目标繁杂。现今主要是通过大型服务器计算完成目标检测,但一
近年来,中国GDP和人口城镇化的迅速增长,促使中国政府加大了交通行业的投资,城市路网规模得到了相应发展,但由于城市地形地貌、大型建筑物等外部环境因素的影响,导致城市路网
地面目标的立体视觉效果能够对城市规划和森林监测提供很大的帮助,合成孔径雷达(Synthetic Aperture Radar,SAR)的干涉成像技术,能够利用遥感的手段获取地面的高程信息,因此
随着科学技术的不断进步,各类电子产品层出不穷,对电子产品的质量要求也越来越高。电子产品在焊接过程会出现各种缺陷(如漏焊、焊锡粘连等),因此,对焊点进行缺陷检测是必不可
爆破块度是评价爆破效果的重要指标,建立爆破块度快速检测与评价的方法对矿山生产有着重要的现实意义。为此,本文将计算机图像识别技术引入爆堆块度的信息检测,针对露天矿山
基于柔性压力传感阵列的图形化成像技术在运动监测、人工皮肤和人机交互等领域有广泛应用。传统柔性压力传感阵列大都以高分子薄膜为基底,采用平面马赛克结构,器件与人体体表
随着科学技术的发展,智能人机交互技术的发展有望辅助不同程度失能患者恢复其生活自理,帮助失能患者与外界正常交流,减轻社会和家庭负担。在失能患者中轻中度完全失能患者虽
在数字多媒体时代,随着手机、照相机等拍摄设备的日益普及,图像越来越成为重要的信息载体,但是在图像的成像过程中,拍摄设备与成像物体之间很难保持相对静止状态,所以会造成
目前预付费刷卡终端在公共事业收费领域得到了广泛应用,然而采用GPRS传输数据的预付费终端多采用明文传输,存在数据传输的安全性和可靠性问题。论文采用嵌入式技术和基于混沌