论文部分内容阅读
移动机器人技术具有广阔的应用前景,其实现需要多学科专业知识的相互配合。其中,路径规划是实现移动机器人技术的关键所在。移动机器人的路径规划是指在未知环境下,移动机器人躲避障碍物,并规划出一条从初始位置出发到抵达目标位置的运动路径。在此过程中,移动机器人需要自主地探索环境,寻找目的地。强化学习算法模仿了人类的学习方式,可以让移动机器人进行自主学习。在不断地试错中,移动机器人根据环境的反馈信息,反复修正当前的运动方式,直至找到完成任务的最优方式。因此,本文把强化学习算法作为主要研究方法,把未知环境下的路径规划作为主要研究方向。通过强化学习算法解决路径规划问题,可以让移动机器人掌握自学能力和自适应能力,但是在实际应用过程中仍然存在一些问题。第一个问题是探索-利用困境。当移动机器人进行动作决策时,它面临两个选择。一个是探索环境,采集更多的环境信息。另一个是利用环境,基于现有知识做出利于抵达目标位置的选择。如何合理分配探索和利用的概率是解决探索-利用困境的一大难点。第二个问题是如何设计出一个可以有效反馈环境信息并为移动机器人提供正确指导信息的奖赏函数。这些问题都会影响算法收敛,如果算法不收敛,那么移动机器人将无法得到最优路径。为了加快算法的收敛效率,本文提出了一种自适应探索方法并且优化了奖赏函数。然后本文结合上述两个改进点提出了基于自适应探索的Q-learning算法。本文的主要研究工作总结如下:(1)本文针对动作选择策略中存在的探索-利用困境,提出了一种基于ε-贪婪算法的自适应探索方法。它将智能体的训练过程分成三个阶段。根据三个阶段的不同需求,动态调整探索因子,合理分配探索和利用的概率。自适应探索方法可以提高探索效率,减少探索时长,加快算法收敛。(2)针对强化学习中原始奖赏函数过于简单的问题,本文对奖赏函数进行了优化,把智能体的状态-动作对进行分类,细化奖赏规则。优化后的奖赏函数增加了反馈的环境信息,给予了移动机器人充足的指导信息,提高了学习效率,提高了算法的收敛能力。(3)本文在三种不同的实验场景中进行仿真实验,用以验证算法的可行性。实验结果表明,本文提出的算法可以成功找到最优路径。而且,Q-learning、SARSA和本文算法的对比实验,可以证明本文算法的路径规划性能更好,花费的计算时间最少,收敛速度最快。