论文部分内容阅读
近年来在机器人学研究中,多机器人系统成为了最具研究价值的领域。多机器人系统被广泛应用在许多领域,如地图构建、协作搬运、以及体育对抗中。对于单机器人难以完成的任务,多机器人可以通过协作机制出色的完成。如今人们开始更多的去研究机器人协作机制,通过机器人与环境、机器人之间的交互学习,使多机器人系统具有了适应未知新环境的能力。这种研究方法将成为机器人研究中最具潜力的研究方法之一。最近几十年,强化学习算法作为一种先进的机器人学习方法被广泛的研究。此种方法不需要先验知识,只是通过机器人与环境的交互作用获得新知识,从而改进行动方式,使其具有自学能力。本文以多机器人协作抬起和搬运物体作为研究背景,主要研究基于强化学习的多机器人协作行为的获得方法,所做的工作如下:(1)在传统的强化学习中引入了组合动作这一概念,采用基于动作预测的多机器人强化学习算法使多机器人系统具备预测机制思想。首先构建了多机器人预测强化学习的模型框架,以Q学习算法为基础,通过合理划分状态空间与动作空间,设计强化函数,并运用概率预测函数降低强化学习的维数以加快收敛速度,然后在学习初期和工作过程中分别选择相应的动作策略,通过仿真实验将其与无协作情况和传统的强化学习算法进行比较,验证了动作预测方法的确可以有效促进协作。(2)将“信念-愿望-意向”(“Belief-Desire-Intention”, BDI)模型引入多机器人系统的Q学习算法,使其具有逻辑推理能力应用于多机器人协同搬运的任务。首先将协同搬运行为分为躲避障碍物和向目标区域前进,不同的行为赋予不同的权重,采用强化学习自动学习理想的权重组合以使行为权重根据环境自动调整,并且本文还提出了新的评价函数来评估机器人与最近障碍物之间的距离变化情况,此函数可以与引入BDI模型的Q学习算法联合使用,这种创新方法在仿真试验中已经取得了良好的效果,使多机器人系统可以轻松完成协同搬运。