论文部分内容阅读
机器博弈是人工智能领域热门且极具挑战性的研究方向,一直以来受到了学术界的广泛关注。近年来,对于机器博弈的研究产生了许多令人瞩目的研究成果,如击败顶级玩家的围棋智能体AlphaGo以及德州扑克智能体冷扑大师。目前,机器博弈的技术被用在许多现实问题的解决上,如电力调度、交通管控、推荐系统等。根据所能获得博弈信息的完全性的不同,博弈分为完备信息博弈和非完备信息博弈。现实中的很多决策问题都可以被抽象为非完备信息博弈的策略优化问题,但目前非完备信息的策略优化算法如冷扑大师,仅能解决两人的、离散动作的,状态简单的博弈问题,不能很好的应用在解决现实中的决策问题上。因此,研究多人的、支持连续动作和复杂状态的非完备信息策略优化算法具有重要的理论与现实意义。本文以虚拟自我对局为基础,结合深度学习,多智能体强化学习等技术,以德州扑克和多智能体粒子环境为实验平台,研究多人非完备信息机器博弈策略优化方法。传统方法在解决德州扑克这种非完备信息博弈问题时,需要利用卡牌抽象等领域方法缩小博弈树的规模,可迁移性差。本文引入了虚拟自我对局的算法框架,将德州扑克策略优化过程分为最优反应策略学习和平均策略学习两个部分,并分别用模仿学习和深度强化学习来实现,设计出了更为通用的最优策略学习方法。在二人德州扑克策略优化问题上,本文利用基于神经网络和蓄水池抽样的多类别逻辑回归方法学习平均策略,利用深度Q网络学习最优反应策略,智能体可以在不依靠领域知识的前提下取得与传统迭代算法相近的性能;在多人德州扑克策略优化问题上,通过理论证明和实验揭示了虚拟自我对局在多人环境下存在的问题并给出了相应的解决方法:针对传统强化学习算法在多人环境下不稳定的问题,引入多智能体行动者评论家算法学习最优反应策略,使得价值网络可以观测到所有的状态从而减小了估值的偏差;针对多人条件下劣更新导致的输入数据不平稳的问题,本文结合近端策略优化的思想,提出了多智能体近端策略优化算法。该算法可以保证每次更新都能单调地提升智能体策略。在实验中,该算法取得了与其他当前先进的强化学习算法相近或更优的表现。