论文部分内容阅读
基于行为的机器人系统必须具备学习能力,才能使其逐步提高解决问题的能力,由于强化学习机制能够使机器人具有在线的自学习能力,所以被广泛应用于机器人的行为学习领域。强化学习算法研究的核心问题是算法的收敛速度,因此对提高其学习速度的研究最为广泛和深入。但传统的结果奖赏仅仅关注任务的完成与否,忽略了完成任务过程中的每个动作和趋势,使机器人通过试错而获得的经验仅被一次性用于调整Q函数,强化学习自身产生的经验没有充分的利用。多机器人系统比单机器人具有更强的优越性,如并行性、柔性、鲁棒性等,因此多机器人的研究已引起普遍重视。多个机器人在共同的环境中运行时,会产生资源冲突问题,如何消解多机器人系统冲突是其关键问题。基于手工编程的消解策略可能会由于环境的改变而无法适用,同时当任务和环境变得复杂时,完全依靠程序员的手工编程实现冲突消解,就变的非常复杂,甚至是不可能的。鉴于当前的研究现状,本文的研究目标有两个方面:一是研究机器人中强化学习算法,提出过程奖赏的概念,充分利用强化学习自身产生的经验,从而提高系统性能和学习速度;二是基于强化学习算法的多机器人系统的冲突消解策略,以解决系统冲突问题。
研究的第一部分是建立考虑噪声影响的仿真实验平台。平台对于噪声的处理是利用基于行为的机器人的特性,将噪声视为机器人的一种基本行为,然后以权重的形式与其它基本行为进行组合,组成机器人的次底层行为。这部分还以机器人的导航为任务,定量研究噪声叠加方式和噪声模型对机器人完成导航任务所需的行程时间产生的影响。仿真结果表明如果仿真实验平台不考虑实际系统中不可避免引入的噪声的影响,在仿真实验平台研究的成果很难移植到实际系统中。
第二部分是提出过程奖赏概念,建立一种过程奖赏函数。过程奖赏利用基于行为的机器人的特征:一个任务一般由一系列的动作组成,对机器人在完成任务中的每个动作和趋势都进行奖赏。过程奖赏从四个方面提高算法收敛速度和机器人的系统性能:(a)过程奖赏对机器人的每个动作提供实时奖赏,充分利用强化学习自身产生的经验;(b)过程奖赏可以终止某些行为,鼓励尝试新行为带来奖赏;(c)过程奖赏降低了在特定条件下由于错误的行为而获得的偶然奖赏;(d)过程奖赏通过加强条件——行为关系降低强化学习算法对噪声的敏感度。仿真结果表明基于过程奖赏和优先扫除算法(PS-process)在系统性能和学习速度上的优越性。
第三部分是提出强化学习对噪声鲁棒性的具体评价方法,同时提出基于强化学习的噪声消解策略。评价方法包括:(a)对噪声水平的鲁棒性,即在信噪比很低的情况下,强化学习算法仍能令人满意地让机器人进行自主学习;(b)对噪声形式的鲁棒性,即不要求指定特殊的噪声模型形式;(c)对噪声特性的鲁棒性,即不要求相关噪声模型满足特殊性质,不要求噪声与观测信号之间的相关性。仿真结果表明PS-process满足这三个评价方法,能为由噪声造成的间断和潜在的错误奖赏提供了去噪效果,说明PS-process作为噪声消解策略的有效性。
第四部分是提出基于强化学习的多机器人系统的冲突消解策略。直接应用单机器人的强化学习算法,同时考虑到多机器人系统觅食任务的冲突主要发生在基地区附近的特点,引入过程奖赏以代替全局奖赏、局部奖赏和子任务方法,它可以解决这些奖赏造成的状态空间和动作空间大、错误奖赏等问题,也可以终止可能引起冲突的行为、充分利用强化学习自身产生的经验,并能实时对机器人的每个动作提供奖赏。仿真结果表明PS-process作为多机器人系统冲突消解策略是有效的。