基于强化学习的路径规划研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lengkuhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术日新月异,人类在航空航天领域和无人驾驶方面探索的步伐从未停止。无人机和无人车等智能体的应用范围逐渐扩大,这无形中对其智能化算法提出了更高的要求。智能体在动态障碍物的环境中完成路径规划任务,会存在一定的规划困难,需要对传统的算法进行更深层次的改进。另外,未来的智能体不能仅依赖于手动的编程,按部就班的完成任务,应该通过与环境交互自主完成障碍物的躲避、路径规划与导航等常规任务和使命。而强化学习算法为实现智能体自主化完成任务开辟了一条可行的技术道路。因此,本文研究并改进了传统的路径规划算法,提出基于采样的迭代式快速搜索随机树算法,同时结合前沿领域提出了基于强化学习的路径规划算法。本文主要的内容包括:(1)分析了传统的路径规划算法,并实现简单的实验案例。接着,对比和实现基于采样的快速搜索随机树算法。然后,为了解决其算法的随机性以及遇到动态障碍物的问题,引入迭代的思想,同时添加随机概率因子,使得随机树向外扩展时能够以一定概率偏向终点。最后,构建基于八叉树模型的三维地图来完成实验。实验表明,该算法在进行迭代对比后,能保留最优路径所在的随机树,在存在动态障碍物的环境中可以进行局部路径重规划,同时保证了选择执行的路径是最短的。(2)利用栅格法构建不同的地图,用不同颜色的方格模拟障碍物、智能体和终点,来完成探索路径的任务。结合强化学习常用的经典算法Q-learning以及Sarsa算法,生成每一幕对应的成功率、累计奖励和、局部探索的路径图以及最终路径箭头图。为了加快收敛速度,引入记忆迹,使Q-learning和Sarsa有记忆功能,生成新的算法QMT和SMT算法,取得了良好的实验结果。利用控制变量法来改变不同参数,对比SMT算法的效果。经过对比发现,改变不同参数可以控制SMT算法更快更好地完成路径规划任务。(3)将在单智能的强化学习路径规划方法迁移到双智能体上进行对比。同时,引入新的策略,防止双智能体之间发生碰撞。两个智能体完成路径规划任务探索目标时,第一个智能体可以按照探索路线执行。当两个智能体相遇的情况出现时,第二个智能体原地等候直到第一个离开,再按照之前路线前进,保证两个智能体不发生碰撞。实验结果表明将SMT算法应用到双智能体上是有效的,用强化学习算法可以完成双智能体在路径规划上的实验任务。
其他文献
<正>1.多媒体教学的概念随着计算机技术的发展,课堂上的教学手段也逐渐有了改进,八十年代开始出现多种电子媒体如幻灯、投影、录音、录像等综合运用的多媒体组合教学,到了九
本文通过自行设计的光学测量系统 ,以实验的方法对最大似然估计量的一致性进行了分析 ,提出了一种减少测量系统计算工作量、降低采样成本 ,又可满足测量精度要求的样本容量选
大型火电厂厂用电控制系统是由间隔层,通讯层,站控层所组成,本文重点介绍了怎样实现间隔层与通讯层之间的连接,以及通讯层与后台系统层之间的连接,后台系统层怎样使用组态软件进行
现有的DDoS防御方法大多是针对传统IPv4网络提出的,而且它们的防御实时性还有待进一步提高。针对这种情况,提出了一种IPv6环境下实时防御DDoS的新方法,其核心思想是首先在受
明代,中国政府赐闽人三十六姓给琉球是一个不容否认的事实.这不仅为大量的史籍记载和家谱资料所证明,同时也为今日络绎不绝从冲绳(原琉球国)来福建寻根访祖的闽人三十六姓后
目的探讨羟甲唑啉鼻喷剂对伴鼻阻塞的阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者的影响,明确鼻阻塞在OSAHS发病中的意义。方法 53例存在鼻阻塞性病变的OSAHS患者,采用鼻声反射
在正常人尿中每天排出Tamm-Horsfall(TH)糖蛋白可达100mg。它除了致密斑,可由亨氏袢升支的小管上皮细胞和远曲小管直至集合管起始部的浆细胞产生。TH是透明管型的主要成分。
应用Catia建立汽车发动机连杆的三维实体模型和有限元模型,对连杆进行最大拉力和最大压力工况下的静态分析,从而得出连杆的应力分布情况,并根据结果对连杆进行改进。
我国大型企业集团的成长往往得益于其较为完善的内部资本市场,集团利用内部资本市场实现资金的自由调配和便利地融取资金。目前,由于我国企业集团内部资本市场部分地被异化为
本文介绍无土栽培技术中营养液浓度自动控制的一种方法,以电导率为反馈变量,采用Arduino传感器控制板作为控制单元,用软件手段解决测量误差,控制参数能根据植物生长阶段自动调节,