基于强化学习的机械臂投掷问题研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:peng737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前投掷问题的研究主要着重于对运动轨迹的优化,对其释放动作的研究较少。尤其在使用强化学习方法时,该问题尤为明显。近年来,强化学习被广为应用在各种领域。然而当某些动作有着特殊限制的情况时,直接使用强化学习算法处理将难以得到有效的结果。本文研究的投掷问题就有着这类问题的特点。本文研究使用强化学习处理带释放动作的机械臂投掷问题。由于释放动作有着执行后会直接结束本回合的特殊限制,释放动作会影响策略的学习。本文针对该问题提出了结合贝叶斯优化的强化学习方法,并在实践中证明该方法的有效性。本文先介绍了当前强化学习的发展和机械臂控制方面的研究现状,以及基于强化学习的机械臂控制的研究意义。并发现众多基于强化学习的机械臂投掷研究中,对释放动作的简化。因此本文将直面该问题,研究如何使用强化学习处理不简化释放动作的投掷问题。其次,本文详细介绍了强化学习的相关知识。包括强化学习的基础知识、分类方法等,并对一些主流算法的发展以及各个算法之间的优势、特点进行介绍。接着,本文研究带释放动作的机械臂投掷问题。本文先具体化一个带释放动作的机械臂投掷任务,再基于V-REP仿真平台,构建仿真环境,直接对接强化学习算法进行实验,以验证该问题确实会导致算法无法收敛。通过分析问题原因,提出了结合贝叶斯优化的强化学习方法。该方法将不同限制等级的动作分层优化,防止在学习过程中互相干扰。最后通过实验验证该方法的可行性。最终训练的模型能很好的完成本文任务。
其他文献
社群经济的发展使得社群营销盛行,传播媒介的变革造就了直播营销。直播营销更深层次满足人们的社交性.增强与消费者的互动性,提高用户的参与感。中小企业应抓住机遇,利用直播营销
本文研究带有胰岛素运输时滞、肝糖原生成时滞以及胰岛素周期脉冲注射的一类血糖-胰岛素相互作用系统,利用Krasnoselskii不动点定理,我们证明该系统存在一个正的周期解,然后
本文研究基于污染数据情形的一类广义指数分布刻度参数的经验贝叶斯估计问题.在stein损失函数下,导出刻度参数的贝叶斯估计以及利用解卷积的核方法构造了该参数的经验贝叶斯
振动问题是阻碍我国摩托车产业发展的一大障碍。传统解决方法,结构复杂,成本高,采用弹性减振器进行振动控制,克服了传统方法的弊端。对发动机弹性悬挂系统进行动力学分析,推导出弹
当前,世界正处于大发展大变革大调整时期,世界多极化、经济全球化、社会信息化、文化多样化等深入发展。全球治理体系和国际秩序变革加速推进,各国相互联系相互依存的程度日益加深,越来越成为你中有我,我中有你的命运共同体。各国必须在政治、经济、安全等各个领域深化合作,才能寻求共同发展。2020年新年伊始,一场蔓延全球的新冠肺炎疫情,更是让所有人认识到,只有相互合作团结,才能打赢这场胜仗。因而,在这样的时代下
<正>一、课题的提出(一)研究背景二十世纪五十年代以来的教改理论和实践,都是摒弃极端,博采众长。有效教学模式的研究出现了多样化、综合化的发展态势。影响较大的有效教学模
会议