论文部分内容阅读
科学技术日新月异,人类在航空航天领域和无人驾驶方面探索的步伐从未停止。无人机和无人车等智能体的应用范围逐渐扩大,这无形中对其智能化算法提出了更高的要求。智能体在动态障碍物的环境中完成路径规划任务,会存在一定的规划困难,需要对传统的算法进行更深层次的改进。另外,未来的智能体不能仅依赖于手动的编程,按部就班的完成任务,应该通过与环境交互自主完成障碍物的躲避、路径规划与导航等常规任务和使命。而强化学习算法为实现智能体自主化完成任务开辟了一条可行的技术道路。因此,本文研究并改进了传统的路径规划算法,提出基于采样的迭代式快速搜索随机树算法,同时结合前沿领域提出了基于强化学习的路径规划算法。本文主要的内容包括:(1)分析了传统的路径规划算法,并实现简单的实验案例。接着,对比和实现基于采样的快速搜索随机树算法。然后,为了解决其算法的随机性以及遇到动态障碍物的问题,引入迭代的思想,同时添加随机概率因子,使得随机树向外扩展时能够以一定概率偏向终点。最后,构建基于八叉树模型的三维地图来完成实验。实验表明,该算法在进行迭代对比后,能保留最优路径所在的随机树,在存在动态障碍物的环境中可以进行局部路径重规划,同时保证了选择执行的路径是最短的。(2)利用栅格法构建不同的地图,用不同颜色的方格模拟障碍物、智能体和终点,来完成探索路径的任务。结合强化学习常用的经典算法Q-learning以及Sarsa算法,生成每一幕对应的成功率、累计奖励和、局部探索的路径图以及最终路径箭头图。为了加快收敛速度,引入记忆迹,使Q-learning和Sarsa有记忆功能,生成新的算法QMT和SMT算法,取得了良好的实验结果。利用控制变量法来改变不同参数,对比SMT算法的效果。经过对比发现,改变不同参数可以控制SMT算法更快更好地完成路径规划任务。(3)将在单智能的强化学习路径规划方法迁移到双智能体上进行对比。同时,引入新的策略,防止双智能体之间发生碰撞。两个智能体完成路径规划任务探索目标时,第一个智能体可以按照探索路线执行。当两个智能体相遇的情况出现时,第二个智能体原地等候直到第一个离开,再按照之前路线前进,保证两个智能体不发生碰撞。实验结果表明将SMT算法应用到双智能体上是有效的,用强化学习算法可以完成双智能体在路径规划上的实验任务。