基于多智能体的融合Sarsa(λ)学习算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:cjjelly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的影响很大,不同的学习算法或者参数很小的变化都可能导致学习性能很大的变化。当环境模型未知时,确定最好的算法和最优的参数是困难的。为了避免参数的影响,提出了一种基于多Agent的融合Sarsa(λ)学习系统,它把强化学习环境当作多智能体环境来处理。最后用迷宫实验仿真,结果验证了该方法的可行性和有效性。
其他文献
<正> 小麦纹枯病是一种重要的土传病害,在世界各地均有发生,我国主要发生在黄淮海流域的冬小麦产区,造成巨大的产量损失。国内外均有报道小麦品种之间存在抗病性差异,但关于
<正>忘忧山公墓位于韩国首尔中浪区的忘忧洞,此处也是一个墓地公园。如果步行途经一段弯弯曲曲的山径,穿过旧茔新冢的一片荒凉,再经过"思考之路",就能看到一棵苍绿的松柏底下
期刊
<正>三月的阳光驱散了空气中的湿冷,走在通往东山桃园的路上,前方是影影绰绰的红色隐于一片山色中。和煦的风带来一股香甜的气息,深深吸一口气,春天的气息弥漫鼻尖。再继续前
f
以沪杭高速铁路二标段小横潦泾连续梁水中承台施工实践为基础,详细介绍水中承台采用钢板桩支护施工工艺流程及操作要点,重点介绍钢板桩插打、内支撑体系分步施工、基坑土方开
21世纪是信息革命和知识经济全球化的时代。我们必须从提高中华民族文化素质的高度,从加快国际文化交流的使命感的角度,重新认识和思考全球化语境下英美文学研究的走向问题。本
众所周知,独立后印度选择联邦制的总根源是古印度留下的多元多维文明。然而,从国家结构形成的视角,并运用历史制度主义方法考察英国在印度的殖民政制史,我们发现:殖民者"分而治
目的探讨当归补血汤对亚致死剂量γ射线照射小鼠骨髓Notch信号通路的作用机制。方法 4Gy137Cs-γ射线照射原代培养7天的MSCs,在辐射后24h,用不同剂量的当归补血汤含药血清作
主动脉球囊内反搏术(intra-aortic balloon pump,IABP)作为一种有效的辅助循环手段,已被广泛应用于各类心功能不全、心力衰竭、进展性心肌梗死等循环衰竭的治疗中,因此建立一套
吸烟已成为当今世界最严重的社会问题之一,目前我国吸烟率居高不下,控烟效果不明显。医院在控烟方面没有发挥应有的功能,主要表现在医院内部没有实现彻底禁烟、医师没有成为控烟
期刊