基于深度强化学习的路径规划方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:gtsmk2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动机器人在与环境的交互过程中往往需要自主获取周围地图信息,然后执行路径规划任务和相关导航功能。因此让移动机器人智能地学习如何在未知环境中规划最短路径受到研究人员的广泛关注。在路径规划领域,传统的机械算法有着感知过程与决策分离、缺乏对问题本质理解、面对未知环境地图时泛化性差等缺陷。目前随着深度学习和强化学习等人工智能算法的成熟,用这些端到端学习的系统取代机械指令式算法已经成了一种趋势。深度强化学习算法则结合了神经网络在计算机视觉领域的优势和强化学习探索环境的特点,本文旨在将其应用到二维栅格地图的路径规划中,从而建立输入图像到路径移动决策的直接映射关系。本文研究了两种经典深度强化学习算法的工作原理,分析了它们和路径规划任务的契合点和不足。在此基础上,针对性地提出了基于深度强化学习的改进算法,做了以下研究工作。首先,本文考察了深度Q学习网络的结构,其核心思想是利用深度卷积神经网络去逼近值函数和通过经验回放的方式进行强化学习的训练。但是其神经网络模块在处理路径规划任务时有着保留空间位置信息、局部图像信息利用上的不足。于是本文采用全卷积神经网络层,并引入了硬注意力机制来对其结构进行优化。然后,为了解决基于反射式神经网络在面对大尺寸地图和长路径时预测误差较大的问题,本文尝试通过引入价值迭代网络来加强算法的长远规划能力。然而传统的价值迭代模块在训练过程中,梯度难以训练且累积误差较大。于是本文做出进一步改进,将其按迭代次数进行非递归展开,网络内部使用残差连接,以及输出网络层采用竞争网络结构将优势函数分解成动作优势函数和近似价值函数的和。在训练方法上,本文舍弃了传统强化学习的探索奖励模式,转而对路径动态规划生成的专家样本进行模仿学习。这样做可以避免路径规划中移动机器人探索空间过大和难以到达目标位置的困难,同时加速模型参数的学习。实验结果的对比分析显示,本文提出的改进强化深度学习算法在路径规划中准确率和泛化性都比经典同类型算法有显著提升。并且在随机的地图实例中进行了可视化,验证了改进算法在未知环境中完成路径规划的有效性和稳定性。
其他文献
目的:胰体尾切除术是治疗胰腺体尾部病变的常用手术方式,随着手术技术及围手术期管理的进步,死亡率较过去几十年明显下降,但术后并发症发生率仍然较高,术后胰瘘是其最常见的并发症之一。本研究拟通过回顾性分析初步确定胰体尾切除术后胰瘘相关危险因素,以期为临床管理提供理论依据。方法:确定排除标准后,回顾性分析2016年01月到2018年10月间在武汉协和医院胰腺外科行胰体尾切除术的病例。收集数据包括病例基本情
航天领域是各国布局的战略要地,航天科技水平是衡量国家综合科技实力的重要指标。伺服控制系统是航天器的核心部件,对可靠性和容错能力要求较高。目前,多相电机伺服系统以其
太阳能平板空气集热器具有结构简单、成本低、易安装和维护等优点,广泛应用于农副产品的干燥等领域,是太阳能干燥系统的核心部件,研究如何通过优化太阳能空气集热器结构来提
目的:前期实验证实晚期糖基化终产物(AGE)随年龄增加在椎间盘内累积是椎间盘退变的重要危险因素,其可以促进髓核细胞凋亡,加速细胞外基质代谢失衡。但其中确切分子机制尚未完全明确,本实验旨在进一步探究AGEs与内质网应激、凋亡、钙稳态之间的关系。方法:用不同浓度AGEs(PBS,AGEs 100μg/ml,AGEs 200μg/ml)处理人髓核细胞,或使用钙通道拮抗剂U73122,xestospong
花楸(Sorbus pohuashanensis(Hance)Hedl),又名百花花楸,为蔷薇科(Rosac eae)苹果亚科(Maloideae)花楸属(Sorbus)落叶小乔木,生于海拔900-2500 m坡地或山谷林中。花楸树是集观果、赏叶于一体的优良观赏和园林景观树种,在我国东北地区虽有广泛的园林应用,但在华北平原地区园林景观建设中尚未见应用。花楸天然分布于黑龙江、吉林、辽宁、内蒙古、甘肃
猪肉制品是我国最受欢迎的肉类产品之一,猪肉的后期加工及食用安全一直是人们密切关注的问题。碎骨作为原料肉中不可避免的危害因子,不仅会损坏加工设备,同时也会对消费者造
心音是否呈现异常是临床专家用来判断心脏类疾病的重要依据,这一判断过程是通过心音听诊实现的。由于专家听诊所需的环境、条件特殊,不利于在偏远地区推行,因此需要寻求简单便捷的方式解决这一问题。现如今,远程医疗的出现为解决这一问题带来了契机。受到远程医疗的启发,本文在心音信号理论研究基础上结合实际,研发了一款便携式心音听诊系统,用户不需要前往县市级医院检查就能够了解自己的心脏状况。文章由以下几部分构成:1
自北京冬奥会申奥成功以来,我国冰雪事业蓬勃发展,相继提出“北冰南展西扩东进”、“三亿人上冰雪”的中国冰雪发展战略。就我国竞技体育来看,为贯彻落实“北冰南展”战略,国
纸基微流控芯片又称“纸上微型实验室”,其作为一个新兴的研究领域,具有很多的优势。与传统微流控芯片,如硅片、石英、玻璃等材料相比,微流控纸芯片具有独特的优势,主要表现
当今时代,微型化的电子产品越来越受到人们的青睐。在微型化电子产品工作中发挥重要作用的光波导具有的弯曲损耗性,严重限制了电子产品微型化的程度。由激子和光子强耦合形成