多智能体深度强化学习的经验回放方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:bbdzj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经验回放技术能够让智能体使用过去的经验样本进行策略优化。当只有一个智能体与环境交互时,经验回放技术能够提升智能体的学习效率。然而在多智能体系统中,如果智能体使用以前的经验样本来更新当前的策略,可能会使智能体在后续的博弈中不再占有优势;如果智能体只关心当前的博弈形势,可能会让智能体过分重视短期收益而忽视了长期回报。针对上述问题,本文分别从如何保存经验样本、使用哪些经验样本以及怎样利用经验样本三个方面进行了研究。主要的研究内容可被概述为:(1)本文首先对如何保存经验样本进行了研究。在多智能体博弈中,由于非静态性的影响,增加经验样本多样性会妨碍智能体获得最大期望回报,减少多样性会让策略失去泛化能力。针对此问题,我们提出了基于蓄水池算法的并发经验回放。实验结果表明,本文提出的经验回放方法在增加经验样本多样性的同时,还提升了策略的泛化能力。(2)本文接着对使用哪些经验样本进行了研究。一些经验样本可以提升策略的优化质量,而另一些会降低策略的稳定性。况且,在一个多人博弈中,每个参与者扮演的角色可能是不同的。所以,对不同智能体而言,同一经验样本的使用价值存在一定的差异。针对以上问题,我们提出了基于优先级采样的并发经验回放。在新的经验回放方法中,各智能体会基于当前的博弈形势来评估经验样本的重要性。在两个多智能体任务上的实验结果证明了我们提出的方法的有效性。(3)本文最后对怎样利用经验样本进行了研究。策略的优劣不仅依赖于经验样本质量的高低,还取决于学习算法的好坏。由于Q学习算法使用同一个动作值函数来选择、评估动作,因此会导致高估问题。同时,在多智能体强化学习中,高估现象还会让智能体过于乐观地看待未来的博弈形势。为了进一步提升策略的性能,我们在使用更先进经验回放技术的同时,还将双Q学习算法与多智能体策略梯度相结合,提出了一种新的多智能体策略梯度算法。实验结果表明,我们提出的算法使智能体在博弈中拥有更大的优势,增强了策略的健壮性。
其他文献
随着人工智能技术的发展,信息量的剧增,社交网络发展迅速,基于社交网络的兴趣点推荐成为新的研究方向,同时也面临许多的问题。兴趣点推荐存在用户签到矩阵稀疏、上下文信息不
企业债券市场的容量不断提升,但是企业债券的违约现象也屡有发生,2014年开始,多只企业债券爆发了违约事件,到期无法偿还本金。从2014年到2020年,共发生了541只债券的违约事件,涉及到的企业达到217家,涉及金额达到4756亿元,给债券市场带来较大的风险,影响了金融系统的稳定。2018年到2020年,出现违约的AAA级债券高达32只,说明目前的信用评级机制难以真实反应债券的违约风险。随着金融科
学位
前贤对临高语研究的文献不少,但对永兴临高语做专项研究的鲜少。笔者在田野调查的基础上对临高语永兴话的音系进行较为系统地描写。通过对声母、韵母、声调、汉语关系字的语音特征进行分析和描写,发现永兴话与其他方言点语音上最大的区别是有送气声母:新盈临高语虽有送气声母,但仅有双唇送气音ph,永兴话不仅有ph、还有kh、tsh,而周边的方言也没有送气音,显然不是接触音变的结果。永兴话属于临高语琼山片,但调类却没
据世界卫生组织统计,肺癌已经成为确诊病例数、致死人数最高的癌症。利用计算机技术对肺癌的早期形态——肺结节进行筛查有利于早发现、早治疗,提高肺癌的生存机会,同时也能
近些年,随着我国社会经济的不断提高,科学技术的飞速发展,国家对学生教育教学的重视程度也逐渐提升,许多学者将越来越多的教学方法引用到学生的教学中去,而崭新的教学方法也
在地质研究及石油的生产开发中岩心资料的识别与表征具有极其重要意义。作为开发最早的一批海外油砂区块,麦凯河油砂区块下白垩统麦克默里(MCMR)组储层拥有着丰富的岩心资料
建筑结构在施工过程以及后期使用过程中会受到荷载、温度等多种环境因素挑战,造成结构表面或内部产生损伤,这些损伤都是结构隐患,如不及时发现将对建筑中的人员以及财产造成
热活化延迟荧光(Thermally Activated Delayed Fluorescence,TADF)材料通过单重态-三重态的反向隙间窜越过程,不使用贵金属即可实现100%的内量子效率,被誉为第三代有机发光材料
无线片上网络通过引入无线链路,实现多跳有线通信的一跳可达,解决了有线片上网络中的远距离多跳延迟较高问题。然而无线节点数量较少,子网内流量聚集在无线节点周围,达到无线
在计算机技术迅猛发展的今天,人们已经可以很好地应用计算机领域的诸多知识来解决许多日常问题,并且可以通过建模的形式,将问题抽象概括,从而得心应手的解决一类甚至多类问题