论文部分内容阅读
当前投掷问题的研究主要着重于对运动轨迹的优化,对其释放动作的研究较少。尤其在使用强化学习方法时,该问题尤为明显。近年来,强化学习被广为应用在各种领域。然而当某些动作有着特殊限制的情况时,直接使用强化学习算法处理将难以得到有效的结果。本文研究的投掷问题就有着这类问题的特点。本文研究使用强化学习处理带释放动作的机械臂投掷问题。由于释放动作有着执行后会直接结束本回合的特殊限制,释放动作会影响策略的学习。本文针对该问题提出了结合贝叶斯优化的强化学习方法,并在实践中证明该方法的有效性。本文先介绍了当前强化学习的发展和机械臂控制方面的研究现状,以及基于强化学习的机械臂控制的研究意义。并发现众多基于强化学习的机械臂投掷研究中,对释放动作的简化。因此本文将直面该问题,研究如何使用强化学习处理不简化释放动作的投掷问题。其次,本文详细介绍了强化学习的相关知识。包括强化学习的基础知识、分类方法等,并对一些主流算法的发展以及各个算法之间的优势、特点进行介绍。接着,本文研究带释放动作的机械臂投掷问题。本文先具体化一个带释放动作的机械臂投掷任务,再基于V-REP仿真平台,构建仿真环境,直接对接强化学习算法进行实验,以验证该问题确实会导致算法无法收敛。通过分析问题原因,提出了结合贝叶斯优化的强化学习方法。该方法将不同限制等级的动作分层优化,防止在学习过程中互相干扰。最后通过实验验证该方法的可行性。最终训练的模型能很好的完成本文任务。