基于虚拟自我对局的多人非完备信息机器博弈策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:laogong90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器博弈是人工智能领域热门且极具挑战性的研究方向,一直以来受到了学术界的广泛关注。近年来,对于机器博弈的研究产生了许多令人瞩目的研究成果,如击败顶级玩家的围棋智能体AlphaGo以及德州扑克智能体冷扑大师。目前,机器博弈的技术被用在许多现实问题的解决上,如电力调度、交通管控、推荐系统等。根据所能获得博弈信息的完全性的不同,博弈分为完备信息博弈和非完备信息博弈。现实中的很多决策问题都可以被抽象为非完备信息博弈的策略优化问题,但目前非完备信息的策略优化算法如冷扑大师,仅能解决两人的、离散动作的,状态简单的博弈问题,不能很好的应用在解决现实中的决策问题上。因此,研究多人的、支持连续动作和复杂状态的非完备信息策略优化算法具有重要的理论与现实意义。本文以虚拟自我对局为基础,结合深度学习,多智能体强化学习等技术,以德州扑克和多智能体粒子环境为实验平台,研究多人非完备信息机器博弈策略优化方法。传统方法在解决德州扑克这种非完备信息博弈问题时,需要利用卡牌抽象等领域方法缩小博弈树的规模,可迁移性差。本文引入了虚拟自我对局的算法框架,将德州扑克策略优化过程分为最优反应策略学习和平均策略学习两个部分,并分别用模仿学习和深度强化学习来实现,设计出了更为通用的最优策略学习方法。在二人德州扑克策略优化问题上,本文利用基于神经网络和蓄水池抽样的多类别逻辑回归方法学习平均策略,利用深度Q网络学习最优反应策略,智能体可以在不依靠领域知识的前提下取得与传统迭代算法相近的性能;在多人德州扑克策略优化问题上,通过理论证明和实验揭示了虚拟自我对局在多人环境下存在的问题并给出了相应的解决方法:针对传统强化学习算法在多人环境下不稳定的问题,引入多智能体行动者评论家算法学习最优反应策略,使得价值网络可以观测到所有的状态从而减小了估值的偏差;针对多人条件下劣更新导致的输入数据不平稳的问题,本文结合近端策略优化的思想,提出了多智能体近端策略优化算法。该算法可以保证每次更新都能单调地提升智能体策略。在实验中,该算法取得了与其他当前先进的强化学习算法相近或更优的表现。
其他文献
目的:观察大黄制剂与抗生素联用对重症脓毒症小鼠细胞因子的影响.方法:将45只健康昆明系小鼠首先制备重症脓毒症小鼠模型,然后随机分为4组.生理盐水对照组腹腔注射生理盐水0.
某时偶然看到报纸上一篇文章的题头画,画里镶嵌着文章的题目——《但愿笑声满九洲》,文中记述了对我国一位喜剧演员的访问经过,并以这样的标题表达作者的良好祝愿。无独有偶,最近
预制语块是一种同时具有词汇及语法功能、具有存储及提取整体性的特定的多词语言结构。预制语块在高中英语听力教学中起着不可估量的作用。文章先介绍了预制语块的定义及分类
本文观察了雌激素对全脑缺血再灌的影响并探讨了其作用机制。切除小鼠双侧卵巢同时于颈部皮下植入雌激素(E2)缓释片(OVXE2组)或安慰剂缓释片(OVXPLC组)。术后18d,手术暴露双
为关中地区退耕还林政策的制定和实施提供参考,结合关中地区退耕还林工程的工程背景、区位特点及退耕还林目前的状况和存在问题,采用理论分析法等建立关中地区退耕还林综合效
黑社会性质的组织指以暴力、威胁或者其他手段,有组织地进行违法犯罪活动,称霸一方,为非作恶,欺压、残害群众,严重破坏经济、社会生活秩序的犯罪组织.黑社会性质的组织犯罪的
我国农村电商经过几年的发展,逐渐形成了工农产品对接、线上线下互补、商流物流信息流合一、服务与消费并重、传统与现代化生产相结合的新型发展路径,但在"城乡双向流通"视角
近年来,光电催化氧化技术(PEC)已经作为一种有前景的环境修复技术被广泛研究。光电催化氧化技术是在光催化的基础上发展起来的,是一种新型的高级氧化技术。该技术可以有效的促进光生电子和空穴的分离,提高量子效率,从而加快对有机物的降解速率。本文采用水热法合成了纳米MoS_2/Ti基电极材料,考察了溶剂、煅烧温度对合成材料性能的影响。使用X射线粉末衍射仪(XRD)、场发射扫描电子显微镜(SEM)、显微激光
目前,薄膜结构广泛应用于建筑、仪器仪表、电子、航空以及其他工程技术领域。在荷载作用下,薄膜的挠度通常远大于其厚度,因而薄膜变形具有几何非线性的特点,这使得薄膜问题的
1933年11月,毛泽东才溪乡调查的关注点是苏维埃政权建设中的群众动员。从《才溪乡调查》所记录的模范乡基本情况中可以知道,群众路线是才溪乡在苏维埃政权建设中实现广泛而深