异构多智能体博弈对抗的强化学习技术优化

来源 :军事科学院 | 被引量 : 0次 | 上传用户:manstation
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算能力的提升和数据量的增长,人工智能逐渐成为计算机学科的热门研究方向。作为最贴近人类学习过程的人工智能方法,强化学习是目前最吸引人关注的明星领域之一。而多智能体强化学习作为博弈论和人工智能的交叉点,更是最前沿的研究点,目前已经在学界和业界得到广泛应用,例如机器人、游戏、推荐系统等。但是距离发展成为类似人脸识别或文本分类等成熟落地的人工智能技术,多智能体强化学习仍有许多科学问题和工业挑战需要克服。在多智能体强化学习的训练中,由于环境返回的奖励信号过于稀疏训练效率较低,训练所需的数据量巨大,导致训练的硬件要求和时间成本太高;并且现有的算法没有考虑到智能体之间的异构性,实际上这是多智能体博弈对抗问题中的一个重要因素;最后经过训练的强化学习模型经常过度拟合于特定任务,导致模型缺乏泛化性,使模型在应用于不同场景时不具备稳定性。针对多智能体博弈对抗问题中存在的异构性问题,本文提出分组的思想,将智能体按照观察空间和动作空间的特征划分为不同的种群,以此对异构问题进行建模并形式化为一个边际优化问题,通过交替最大化理论求解该优化问题并证明了其收敛性和局部最优性,为理解和促进异构智能体之间的关系提供了新的视角。在此基础上还提出了一种高效的两阶段异构融合迭代方法,通过微调的方法修改现有模型使其快速适应异构任务以提高效率,并通过迭代方法依次训练不同的智能体组直到算法收敛。针对模型的泛化性问题,提出了状态建模与特征提取的方法,将状态向量建模为一个与智能体数量无关的特殊矩阵并通过卷积网络从矩阵中提取有价值的特征,此外还使用了死亡掩码技术以避免死亡智能体对损失函数计算的影响。最后本文在星际争霸SMAC平台的不同场景地图中进行了广泛的实验,结果表明本文提出的方法在困难的异构多智能体任务中的表现显著优于SOTA算法并具有较好的泛化性。
其他文献
<正>0引言2 021年10月,国家互联网信息办公室发布《互联网用户账号名称信息管理规定(征求意见稿)》,其中第12条要求“互联网用户账号服务平台应当以显著方式,在互联网用户账号信息页面展示账号IP地址属地信息。境内互联网用户账号I P地址属地信息需标注到省(区、市),境外账号IP地址属地信息需标注到国家(地区)”。
期刊
路桥工程作为公路工程建设的重要组成部分,其对于保持交通畅通、确保道路交通安全都具有十分重要的作用。为了确保路桥工程建设质量,就必须对路桥工程进行试验检测,介绍了路桥工程试验检测存在的问题,并针对如何更好地运用路桥工程试验检测技术进行了讨论。
伟大斗争精神是马克思主义与中华优秀传统文化共同滋育的党的政治品格,也是党领导全国各族人民战胜各种风险挑战、全面建设社会主义现代化国家、全面推进中华民族伟大复兴的重要基因禀赋。新时代发扬斗争精神、增强斗争本领,需要立足党的初心使命和现阶段中心任务,立足人的全面发展和人与自然、人与社会、人与人的关系,贯彻新发展理念,提升解决问题的能力,推动高质量发展。要科学把握习近平新时代中国特色社会主义思想的世界观
项目化学习强调学生在真实的情境中,以问题为驱动,通过小组合作的方式,感知具体的任务,在实践探究中发现问题,解决问题,同时提升自主探究的意识,激发学生的学习兴趣。综合实践活动课程从学生真实的生活情境出发,在探究和解决问题的过程中培养学生的综合素质,二者都强调实践性、探究性、合作性等特点。本文从四个方面进一步分析项目化学习应用于综合实践活动课程设计的可行性。
<正>中小微企业融资难是个老问题,中小微企业融资难,难在信息不对称。本文从中小微企业融资所遇到的现实瓶颈出发,结合区块链技术在征信领域的应用及创新优势,探讨区块链技术与电力大数据的耦合点,以期更好地实现普惠金融。中小微企业是国民经济的重要组成部分,轻资产、普遍缺乏抵押物、成长性不稳定等特点带来的融资难问题,依然困扰着众多成长中的中小微企业。尤其在新冠肺炎疫情影响下的中小微企业,叠加疫情导致的产业链
期刊
近年来深度强化学习在广泛的研究领域中取得了优异的成绩,但深度强化学习方法的样本效率低下仍是一个亟待解决的问题。在传统实验环境中智能体通常使用固定的探索机制来提高样本效率。但是当状态空间过大或者外部奖励稀疏的情况下,这种探索方式达不到理想的效果。为了解决上述问题,本文结合现有的深度强化学习探索方法,详细分析了高维探索问题存在的难点,并提出了两种不同的高维度强化学习探索算法:基于特征嵌入的计数探索算法
我国对运动公园的研究目前停留于美学层次,缺乏对使用者心理层面的关注,不利于培养良好的运动氛围。从反思层面,针对运动公园选址、景观设计、功能分区提出人性化、情感化提升方案,使运动者获得更好的情感体验的同时,还能传承体育和地域文化。
学位
目的:观察西黄胶囊联合TEC化疗方案治疗Ⅲ期乳腺癌的疗效及对免疫功能的影响。方法:将78例Ⅲ期乳腺癌患者按随机数字表法分为对照组和观察组各39例。对照组给予TEC化疗方案治疗,观察组在对照组治疗基础上给予西黄胶囊治疗。比较2组近期疗效、不良反应情况及免疫功能。结果:观察组近期总有效率为66.67%,高于对照组的43.59%(P<0.05)。观察组恶心呕吐、白细胞降低、血小板减少的发生率显著低于对照
新时期的发展背景下,单板滑雪爱好者的数量在逐渐增多,为了在运动中拥有更多的乐趣,同时保证各类动作的专业性,需要加强平行大回转过旗门技术的学习和训练。由于滑雪运动受到很多因素的制约,如运动人员的身体素质以及环境等,需要滑雪者具备一定的力量基础,同时了解和掌握平行大回转过旗门技巧,保证不同动作稳定的同时确保自身的安全性。