基于多智能体强化学习的新强化函数设计

来源 :控制工程 | 被引量 : 0次 | 上传用户:tp20201892
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高强化学习算法在多智能体系统中的性能表现,针对典型的多智能体系统-Keepaway平台总是以失败告终的特点,受与之有相同特点的单智能体系统杆平衡系统所采用强化函数的启发,重新设计一种新的惩罚式的强化函数。新的强化函数在系统成功状态时设零值奖赏,失败状态时给与负值惩罚。基于新设计的强化函数的Sarsa(λ)算法成功应用在Keepaway平台上。仿真结果表明,新设计的强化函数在一定参数条件下有效提高了强化学习算法载Keepaway平台的性能表现,其最终的学习效果更好。
其他文献
王小龙  “微摄影”主持人  自称去过国内外很多地方,所以积极报名成为了本期主题的“微”评委。  “爱上一座城可以有很多原因。而在一张图里既能表现出是哪个城市,还要彰显出你对的这个城市的‘爱’其实是非常困难的。比较可惜的是,很多投稿局限在了城市风光上。而事实上,带环境的人文细节照片意境要更好一些。”  同为摄影爱好者,我们因为影像、因为视觉、因为喜欢《影像视觉》这本杂志而联系在了一起。要相信,在你
我们的读者Jo想要在家中拍摄一些人像作品,但是她完全没有布光方面的基础,让《影像视觉》的专家来帮助她吧。
目的探讨老年人心脏肿瘤的外科治疗特点。方法自1980年1月至2004年12月间,我院对35例年龄〉60岁的老年原发性心脏肿瘤患者施行体外循环下的肿瘤切除术,男14例,女21例;年龄62~74岁
目的 采用SYBR GreenⅠ实时荧光定量逆转录聚合酶链反应(RT-PCR)技术,建立检测前列腺癌抗原3(DD3)mRNA的标准,定量检测人体不同组织中该基因的表达水平。方法 从LNCaP细胞中采用RT-
文章从可持续发展的视角,对城市平衡社会文化、城市经济发展和体育产业化进行比较分析,提出了奥林匹克绿色体育的环保理念,揭示现代化城市的发展应由经济水平、生态环境和资