论文部分内容阅读
强化学习是人工智能中策略学习的一种,是一种重要的机器学习方法,用于解决可感知环境的自主agent,如何学习选择出实现其目标的最优行为策略。由于强化学习通过与环境的直接交互进行学习,具有试错评价、延迟回报、目标导向等特点,在许多agent中得到了较好的应用,特别是在移动机器人的智能实现取得了较好的成果。移动机器人是机器人学和智能控制的重要研究领域,是当今智能发展的重要方面与主要体现,其研究目标是使机器人具有高度自规划、自组织、自适应能力,可在复杂的非结构环境中自主移动并完成相应任务;因此,自主导航技术是其研究的核心,而无碰运动则是机器人应具备的基本能力。利用强化学习方法更好的实现未知环境下的移动机器人自主导航、避碰技术,对学习算法的应用推广及移动机器人的工程实现等均具有重要的意义。
但是,随着强化学习在实际应用的进一步推广,该方法也面临着越来越多的困难及挑战。首先是在实际应用中由agent自身及外界环境所引起的各种不确定性问题,使得学习算法难于很好的实用推广;其次是学习算法的收敛效率问题,较慢的收敛速度使得各种算法在理论研究或仿真实验中取得的成果不适用于实际的学习问题。因此,从实用的角度对强化学习方法及其在移动机器人智能中的实现进行更深入的研究显得尤为重要。
本文首先分析了强化学习在实际应用中的不足,总结了目前国内外研究的主要不确定性知识表示方法:概率统计、模糊理论、定性推理以及灰色系统理论等,并对各种表示方法的特点等进行了比较研究;进而将强化学习方法与这些不确定性知识表示方法结合起来,详细阐述了模糊强化学习、定性强化学习以及灰色强化学习等强化学习方法,并分析了各种方法的优缺点,为强化学习算法的工程实用奠定了较好的基础。
针对移动机器人自学习导航收敛效率较低,理论成果难于应用的难题,本文对基于先验知识的强化学习自主导航方法进行了研究。通过对环境模型的灰色先验特性的分析,提出了基于灰色模型信息的强化学习方法(RLBG):而为更好的运用人类自身的经验知识,研究了基于定性经验知识的强化学习方法(RLBQ);这些方法对各种不确定性先验知识在强化学习方法及移动机器人自主导航中的更充分有效的运用较有启发及借鉴意义。
移动机器人自主运动中经常存在各种不确定性,如外界环境的未知不确定性及机器人自身感知及执行的不确定性等。为实现移动机器人在实际中更好的自主无碰运动,本文在利用强化学习自学习避碰规则库的基础上,结合灰色预测理论的GM(1,1)模型通过对当前及下一距离的预测而对贫信息的有效开发的方法,对基于灰色预测的移动机器人自主避碰进行了研究,并通过仿真实验验证了所提方法具有更好的避碰效果。