基于强化学习的多机器人协作研究

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:chenglin229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来在机器人学研究中,多机器人系统成为了最具研究价值的领域。多机器人系统被广泛应用在许多领域,如地图构建、协作搬运、以及体育对抗中。对于单机器人难以完成的任务,多机器人可以通过协作机制出色的完成。如今人们开始更多的去研究机器人协作机制,通过机器人与环境、机器人之间的交互学习,使多机器人系统具有了适应未知新环境的能力。这种研究方法将成为机器人研究中最具潜力的研究方法之一。最近几十年,强化学习算法作为一种先进的机器人学习方法被广泛的研究。此种方法不需要先验知识,只是通过机器人与环境的交互作用获得新知识,从而改进行动方式,使其具有自学能力。本文以多机器人协作抬起和搬运物体作为研究背景,主要研究基于强化学习的多机器人协作行为的获得方法,所做的工作如下:(1)在传统的强化学习中引入了组合动作这一概念,采用基于动作预测的多机器人强化学习算法使多机器人系统具备预测机制思想。首先构建了多机器人预测强化学习的模型框架,以Q学习算法为基础,通过合理划分状态空间与动作空间,设计强化函数,并运用概率预测函数降低强化学习的维数以加快收敛速度,然后在学习初期和工作过程中分别选择相应的动作策略,通过仿真实验将其与无协作情况和传统的强化学习算法进行比较,验证了动作预测方法的确可以有效促进协作。(2)将“信念-愿望-意向”(“Belief-Desire-Intention”, BDI)模型引入多机器人系统的Q学习算法,使其具有逻辑推理能力应用于多机器人协同搬运的任务。首先将协同搬运行为分为躲避障碍物和向目标区域前进,不同的行为赋予不同的权重,采用强化学习自动学习理想的权重组合以使行为权重根据环境自动调整,并且本文还提出了新的评价函数来评估机器人与最近障碍物之间的距离变化情况,此函数可以与引入BDI模型的Q学习算法联合使用,这种创新方法在仿真试验中已经取得了良好的效果,使多机器人系统可以轻松完成协同搬运。
其他文献
盲信号分离是指在源信号及其混合传输信道未知情况下,仅仅利用观测到的混合信号来估计源信号。由于盲信号分离具有非常广泛的应用领域,如生物医学工程、语音增强、数字通信系统
随着嵌入式技术和汽车产业的快速发展,两者相结合的汽车电子产业也步入快速发展阶段。人们对汽车的依赖越来越大,汽车已经成为人们不可替代的日常出行交通工具。人们的乘车时间
随着互联网和高宽带业务的迅猛发展,人们对接入网带宽提出了更高要求。因光纤带宽的优势,PON(无源光网络技术)成为了最有前景的接入技术,特别是以太无源光网络(EPON)被业界人士公
随着用户的快速增长和网络规模的不断扩大,网络能耗随之呈现快速增长。传统网络架构由于缺少集中控制和管理机制,导致网络能耗问题无法有效解决。基于软件定义网络(SDN)的未
随着固态发光器件的发展,无线光通信的研究引起了越来越多研究者的兴趣。众多的研究者们在为让无线光通信广泛应用于人们的生活而奋斗。   本文首先给出了无线光通信的文献
随着人们对高速、高效、多样化的通信需求的日益增长,现代短波通信也不断向数字化、网络化的方向发展。然而,由于短波信道传输媒介的时变性使得短波通信的可靠性、有效性及功能
由于毫米波的频率高、可用带宽大,能给系统提供每秒千兆比特的传输速率,因此被视为5G通信的一项关键技术。为了保证足够的链路余量,毫米波系统在收发端需要都采用大规模天线
关于圆极化天线的研究具有悠久的历史,基于圆极化波的诸多特点,故在电子侦察和干扰、雷达的极化分集、卫星导航、通信系统和射频识别系统(RFID)中普遍采用圆极化天线。对于圆
Wireless communications of today is moving from cellular networks towards more distributed,self-configuring networks.Wireless had a huge growth over the passing