基于协同进化与强化学习的多代理协作学习研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:lq306330997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多Agent系统中,由于环境是动态变化的,其他Agent行为是未知的,要建立领域完备的先验模型几乎不可能,而且许多领域知识也是在Agent和其他Agent交互的过程中逐步获得的,所以复杂环境下的Agent应当能够根据以前的经验校正其行为,即具有学习或自适应能力。学习技术在多Agent系统中的应用显得尤为重要。与此同时,单个Agent常常由于其有限的资源和能力,不能完成复杂的任务,所以多个Agent之间的协作也非常必要。增加学习机制是实现不同Agent之间协作的有效解决方法之一,一方面,为多Agent系统增加学习机制可以有效地实现Agent间的协作;另一方面,为Agent系统增加协作机制也能改善多Agent的学习性能。本文首先回顾Agent及多Agent系统产生、研究基础以及多Agent系统学习方法,分别从多Agent协作、强化学习、多Agent强化学习三个方面讲述多Agent协作学习的基础知识。本文将协同进化与进化稳定遗传算法相结合,并应用于多Agent系统的行动选择问题。在由两个或更多群体组成的系统中,每个群体分别代表一个Agent,系统中每个物种在其群体内进行进化,并通过反复使用进化稳定遗传算法以适应环境,最终使系统的适应度值达到最高。系统使用分散博弈,即多Agent系统的n个Agent分别决定要执行哪k个任务,文中研究n = k的情况,即完全分散博弈。只有当系统中n个Agent所选择的行动各不相同时,系统的适应度函数值才会达到最高,因此在这种博弈中各Agent会最大化地分散选择行动。实验仿真结果表明,此算法适用于多Agent系统的行动选择问题,与基于传统遗传算法的多Agent系统相比,系统可以在较少的代数内快速达到最高的适应度,且最高适应度也有明显提高。强化学习是多Agent系统学习常用的方法之一。在强化学习中策略的搜索与利用之间的平衡决定了Agent是搜索未执行过的行为集还是继续利用已经在学习过程中得到的知识。现有的行动选择策略只是利用了当前学习过程中得到的策略知识,很少利用以前学习过程中得到的策略。为了有效地利用已完成任务的策略集,提高Agent间协作完成任务的能力,我们在随机博弈与强化学习框架下,提出新的行动选择策略—策略重用方法,保存已经学习过的任务所用的策略集,将多Agent系统以前完成任务的策略集用于新任务的完成,有效地提高了新任务完成的效率以及系统的收益值。本文从多Agent协作学习方法出发,从协同进化稳定遗传算法结合多Agent系统和强化学习中的搜索策略方法这两方面有效提高了多Agent系统中Agent的协作学习能力,并给出了相应的实验结果。
其他文献
全球军事科技竞争的加剧,“南海争端”问题凸显以及海洋资源争夺愈加激烈等,都对我国海港建设提出了更高的要求。港口作为陆地与海洋交汇的枢纽,自身的发展对于其连接着的两块领
期刊
随着经济全球化、信息化浪潮的到来,全球经济已进入以知识经济为代表的新经济时代。组织的经营和发展不再主要依赖于资本、自然资源和劳动力等传统资源,知识正成为生产力要素中
期刊
期刊
期刊
期刊
期刊
国家可持续发展实验区的建设是我国落实可持续发展战略的有效措施,我国已经建立了国家级实验区40多个,省级实验区70多个,包括了人城市城区型、中等城市型和建制镇三种类型。为了
管理层和员工收购(MEBO)是国有企业产权多元化的方式之一。从理论上来讲,MEBO是MBO和ESOP的结合,充分体现了管理层和员工的地位和价值。本文利用博弈论对国有企业管理层和员