【摘 要】
:
多智能体强化学习是强化学习的一个子领域,由于其更加贴近真实世界,因此获得了广泛的关注。但是由于多智能体系统的运行逻辑更加复杂,相对于单智能体场景,很多问题在多智能体场景中更加难以解决,比如探索与利用的平衡问题。探索与利用的平衡问题在单智能体场景中已经涌现出了很多优秀的工作,但是在多智能体场景中却还未被深入研究,且目前已有的工作大多数都不具备良好的扩展性。此外,虽然多智能体强化学习的研究热度日益增长
论文部分内容阅读
多智能体强化学习是强化学习的一个子领域,由于其更加贴近真实世界,因此获得了广泛的关注。但是由于多智能体系统的运行逻辑更加复杂,相对于单智能体场景,很多问题在多智能体场景中更加难以解决,比如探索与利用的平衡问题。探索与利用的平衡问题在单智能体场景中已经涌现出了很多优秀的工作,但是在多智能体场景中却还未被深入研究,且目前已有的工作大多数都不具备良好的扩展性。此外,虽然多智能体强化学习的研究热度日益增长,但是其对应的算法库数量较少,且主流的算法库封装复杂、调用困难、提供的算法数量不够多,目前缺少一个调用方式简单、算法种类丰富的多智能体强化学习算法库供研究、开发人员使用。除了算法库以外,多智能体强化学习目前还面临着落地难的问题,不同任务的训练都需要用户从代码的层面将算法与任务进行对接,无法直接使用算法进行训练,这需要用户对多智能体强化学习算法有一定的了解。因此,本文首先对多智能体强化学习中的探索算法进行了研究,提出了一种基于好奇心与情景记忆的多智能体强化学习探索算法EMC,该算法中的好奇心模块负责指导智能体进行深入的协同探索,情景记忆模块负责将智能体探索到的经验进行高效利用,两个模块的结合使得EMC在网格世界实验与星际争霸实验中的效果优于当前的多智能体强化学习算法。在提出EMC之后,本文基于EMC及其它算法,提出了一套多智能体强化学习算法库MAA,并对其结构及运行流程进行了详细介绍。MAA包含多种多智能体强化学习基础训练算法、网络结构以及探索算法,其代码结构简洁且可读性强,研究、开发人员通过简单的指令即可进行调用与参数配置,即使用户需要修改内部代码也不会面对封装复杂等问题,其简洁的代码结构会极大程度减小用户修改内部代码的难度。最后基于MAA,本文提出了一套基于多智能体强化学习的博弈决策系统,并对该系统进行了详细的分析与设计。该系统致力于降低普通用户使用多智能体强化学习算法的门槛,让用户对于不同的任务,经过简单的操作即可调用多智能体强化学习算法进行训练,且在训练结束之后为用户提供模型评估、策略解释功能,从而辅助用户选择最优模型并且对智能体策略进行深入理解。
其他文献
对于一般的投资决策问题,有学者指出公司的现金持有量会影响到投资时机的选取,他们假设项目收益满足几何布朗运动,利用投资的实物期权理论得到了投资决策时机模型。本文在此基础上考虑到用几何布朗运动来描述项目收益比较理想化,所以假设项目收益服从带泊松跳的几何布朗运动,研究了在公司现金持有量充足与不足两种情形下的投资时机选取模型,得到了更为接近现实场景的结论。在数值分析方面,本文着重研究了新引入的参数对于最终
延时容忍网络(Delay-Tolerant Networking,DTN)能够较好的满足当前深空网络通信业务需求,克服链路长延时、易中断等问题。但随着航天技术的快速发展,未来深空网络的场景必将越来越复杂,业务和服务也将越来越丰富多样,数据传输量也会随之急剧增加。因此,未来深空网络将面临多方面的技术挑战,考虑到信息中心网络(Information-Centric Networking,ICN)在数据
事件因果关系识别在自然语言处理领域中是一个重要的研究课题。作为一种重要的语义关系,事件因果关系可以将事件按照因果逻辑组织成事件图谱,通过在事件之间进行因果推理来辅助人类进行决策,可应用于事件预测、舆情监控等场景中。现有关于事件因果关系识别的方法可以分成三类:基于模式匹配的方法、基于统计机器学习的方法、基于深度学习的方法。前两种方法受限于特征工程繁琐和模型表达能力不足等问题,对于隐式因果关系的识别效
二维硼纳米片是新兴的一类二维(2D)单元素纳米材料,硼纳米材料由于其独特的纳米片状结构和非凡的理化性质,在储能,环境科学,催化,传感和生物医学领域均受到了广泛关注。具有高光热转化效率和超高负载能力的二维烯(尤其是石墨烯和磷烯)已被广泛报道用于光动力疗法和药物递送系统。与石墨烯和磷烯相比,硼纳米片由于其易处理的特性和良好的生物相容性,在癌症的诊断和治疗方面显示出更大的潜力。张和梅等首次报道了超薄硼纳
作为拉动经济增长的三驾马车之一,出口的重要性不言而喻,其对我国的经济发展起着重要作用。作为全球第一贸易大国,中国在2018年的进出口总额达到了46000亿美元。从全球看,中国的出口增速高于全球主要经济的整体水平。从贸易结构看,高技术含量的新产品以及机电类产品成了主要的出口产品。A公司作为一家金融自助设备制造商,除了主营的国内市场以外,也不断地在海外市场进行探索。但是近两年随着全球经济增长趋缓,各国
远程内存直接访问技术(RDMA)正在被越来越多的应用到数据中心来获得更优异的性能表现。RDMA技术允许应用绕过远端CPU,直接访问远端机器的内存,并且通过将网络协议栈卸载到网卡和内核旁路的方式提供超低的延迟和更高的网络带宽。然而将数据中心里的分布式系统从以TCP/IP为主的网络通信架构迁移到RDMA通信架构并非易事,这主要由两方面造成,一方面是由于RDMA自身的限制造成的,尽管RDMA已经给开发者