强化学习在多智能体协同中的研究与应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:lcm2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的发展,特别是强化学习理论的大量应用,将强化学习方法应用在多智能体系统中的研究逐渐热门。强化学习模拟人类活动中获得奖励的过程,通过最大化奖励的方式为研究人员提供了一种求解多智能体控制系统的方法。多智能体系统利用强化学习可以进行自适应的学习,可以很好面对环境中的动态特性。随着多智能体系统的应用场景越来越多,利用强化学习在多智能体系统中设计灵活的算法也是当今的研究热点。为了达到上述目标,本文结合已有的多智能体系统中的强化学习算法,针对在多智能体协同环境中的强化学习方法进行研究,主要完成了以下工作:(1)提出一种适用于全局观测环境下多智能体强化学习算法。本文提出的算法利用注意力机制自适应选择环境中的智能体信息,以注意力的方式聚合选择之后的智能体信息,从而替代传统多智能体强化学习中的联合状态以及联合动作。将其应用于多智能体协同环境中,与MADDPG算法相比较,进行实验中验证了算法的高效性。(2)提出一种基于图网络的多智能体强化学习方法。在部分可观测的多智能体环境中,利用图网络进行智能体之间的信息传递,从而使多智能体系统中的每个智能体感知全局信息进行学习。并将该方法与强化学习相结合,将其应用于多智能体协同环境中,与全局观测的多智能体算法相比较,进行仿真实验,验证了算法的有效性。(3)结合本文提出的算法,在多智能体协同环境中,针对环境中智能体数量改变之后的环境进行实验验证。利用本文所提的算法与课程学习的思想相结合,将复杂的学习过程简化,并在仿真环境中进行试验验证了该方法的可扩展性。因此,本文通过强化学习在多智能体协同环境中设计了相应的算法,并且应用于多智能体协同环境中进行仿真实验。
其他文献
弗兰克·奥尔巴赫(Frank Auerbach)是英国当代画家,肖像画是其主要的绘画主题之一。本文主要研究奥尔巴赫的肖像画特征,笔者通过文献分析、比较分析和图像志的研究方法,研究奥尔巴赫肖像画的艺术语言表现形式和其艺术创作追求。画家通过颜料的厚积使作品产生浮雕式的视觉感,利用短直线和“Z”字形的黑线条围绕出僵硬的、连续的几何形状,通过结合曲线与主观的色彩捕获人物的真实分量。奥尔巴赫在艺术创作中追求
为了解决船载柔性阵被动定位系统中基元位置不确定的问题,提出了实时获取柔性阵基元坐标的技术方案。利用辅助声源发射直接扩频的DPSK(Differentialphaseshift keying)信号,根据
目的:观察间隙连接蛋白Cx43(connexin 43,Cx43)在人肺癌组织中的表达,并探讨其与肺癌的发生、发展和预后的关系。方法:应用免疫组织化学方法检测146例肺腺癌组织中Cx43的表达,并
小流域洪峰流量形成与大流域不同,其特点是单项因素(雨强、地形、植被等)的变化作用比较突出。文中将小流域洪峰计算分解为河槽调蓄和山坡汇流二部分,充分考虑山坡水流过程对洪
夏日里各种冰品、饮料品种繁多,风格各异。一种用植物果实“凉粉子”加工而成的“绿色冰凉粉”,用天然原料作凝固剂,凝固后形似“果冻”,口感清凉甘甜、鲜嫩润滑、消暑解渴,还克服了传统凉粉口味单一的局限,在夏季冷饮市场可谓一枝独秀。开一个绿色凉粉店,效果一定很好。  项目特点  1.全手工操作,用各地都有的食用水,加天然凝固剂全手工加工成型,1人1小时可轻松加工出50千克成品。  2.具有清凉、甘甜的口感
水环境监测对于保障生态安全与人类健康具有重要意义。传统仪器分析技术依赖价格昂贵的仪器以及专业操作人员,限制了其在经济欠发达国家和地区以及偏远地区的应用。针对上述问题,本文研究了基于智能手机的图像传感技术,并开展了基于此技术的水中常见污染物检测条件优化及方法建立,主要研究结果如下:(1)搭建了以智能手机摄像头为感光元件的光路系统,通过3D打印,进行了智能手机水质比色检测系统集成,并对该系统进行了性能
为分析高温后骨料对混凝土性能的影响,研究不同目标高温后石灰岩和辉绿岩外观、质量损失、压碎指标及微观硬度值,得到石灰岩和辉绿岩温变规律。试验结果表明,温度超过500℃后
提出一种基于直接数据域方法的快速波达方向估计算法,该法仅采用阵元输出电压的极少数快拍数据即完成对相干与非相干入射信号的波达方向估计。首先根据直接数据域最小二乘思想