【摘 要】
:
多智能体强化学习方法之前一直在博弈论和控制论的基础上进行研究,但是实验结果表明,这一类多智能体强化学习方法无法处理现实生活中的复杂问题。直到最近几年深度学习技术和
论文部分内容阅读
多智能体强化学习方法之前一直在博弈论和控制论的基础上进行研究,但是实验结果表明,这一类多智能体强化学习方法无法处理现实生活中的复杂问题。直到最近几年深度学习技术和强化学习技术的成熟,给群体智能的研究带来了新的解决方案。通过深度神经网络来拟合策略函数使得智能体有更强的处理复杂问题的能力。本课题主要研究多智能体强化学习方法在对抗与协作环境下的应用,以及算法稳定性的提升和智能体的规模的扩大,使得智能体能够像人类一样在复杂环境下能够互相协作地与其他智能体进行对抗。首先,本文的研究在GYM平台上进行,该平台包含众多游戏场景,是由Open AI开发的供给强化学习方法研究平台。本文根据MADDPG算法实现了一个群体智能对抗策略。该策略能够与GYM平台进行交互,读取智能体集群的信息,然后做出决策,控制智能体集群中的智能体互相协作,达到与其他智能体集群对抗的目的。其次,本文针对DDPG方法做出了改进,将确定性策略改为随机策略,以增加样本的复杂性,提高算法的稳定性,并对DDPG的策略梯度更新方式做出了修改,保证算法性能在训练过程中保持单调不减。本文还在改进后的MADDPG算法的基础上加入注意力机制,使得智能体集群中的单个智能体对其他智能体分配不同的注意程度,以达到减少算法的计算复杂度,增加智能体集群的数量的目的。最后,本文对比分析了MADDPG算法、改进后的MADDPG算法和加入注意力机制后的MADDPG方法在GYM上的变现差异。通过实验发现,加入了注意力机制后的MADDPG算法的表现要好于传统的MADDPG方法。
其他文献
关于竞业限制人员的违约责任承担方式,《劳动合同法》只规定了支付违约金和赔偿损失两种,从法律上排除了强制履行的适用。从法理上来说,强制履行也违背了劳动者人身不可强制
服饰作为传播文化的一种载体,反映了人类文明的不断进步。本文选取服饰设计中的一个重要配件——耳环,对其所传播的文化内涵及其发挥的作用进行分析。
从社会发展需要 ,我国经济和社会发展现状 ,“求真”与“求善”、“求美”的关系等角度提出“求真教育”应成为教育者的教育理念 ,并论述了可供借鉴的陶行知先生的“求真观”
目的探讨软组织肉瘤手术前化疗的临床意义。方法选取北京大学临床肿瘤学院、北京肿瘤医院暨北京市肿瘤防治研究所骨与软组织肿瘤科2007年8月~2008年5月收治的50例手术软组织肉
《生物制药工艺学》是生物制药专业的一门专业核心课程,主要介绍了生物药物的制备和分离纯化,是一门理论与实践并重的学科。为了提高课堂教学质量,在《生物制药工艺学》教学
随着现代电力系统的发展,智能化高压电器的电磁兼容性矛盾更加突出,文章介绍了配电站、变电站中的电磁干扰,并详细叙述了电磁干扰抑制技术。
效益评估是雨水资源化利用的重要基础性工作。采用指标体系法,综合考虑了雨水资源化利用的供给侧约束和需求侧约束两个方面,选用多年平均降雨量、降雨集中度和城市缺水程度3
作者建立了测定普罗帕酮(propafenone,PF)的反相高效液相色谱方法。固定相为日立GEL 3056(ODS)。流动相为甲醇:醋酸钠缓冲液:水(70:15:15,v/v),并用二乙胺调至0.0584mol/L作
以AZ31和AZ80两种镁合金汽车轻量化材料为研究对象,用不同工艺进行了锻造,并进行了力学性能和耐腐蚀性能的测试与分析。结果表明,与常规锻造相比,等向锻造能提高材料的力学性
钢筋混凝土装配式建筑中的一大技术难点便是保证预制构件间钢筋连接的强度及稳定性,目前装配式工程中应用较为普遍的钢接连接形式有两种:即套筒灌浆连接法、约束浆锚连接法。