基于深度强化学习的五子棋算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:cugll2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能的一个长期目标是从“零”开始,在最有挑战性的领域达到超越人类的水平。而从“零”开始意味着不需要人类的知识,仅仅依靠自我学习就能不断进步。这是一种通用人工智能的思想,并非只是特定领域的适应,它为我们解决更广泛的实际问题提供给了可能。Alphazero在围棋、国际象棋、日本将棋上都取得了成功,这是惊人的成就,也是通用人工智能的代表作,主要创新在于将深度强化学习和蒙特卡洛树搜索这些经典理论做了结合。这个结合很有启发性,提供了一个可以广泛探索的空间。本文将在这方面做出积极尝试。五子棋是一个规则简单但掌握起来并不简单的棋类游戏,在同样大小的棋盘下,它的复杂度接近围棋。目前最强的五子棋程序是奕心,在面对人类顶尖棋手时也没有绝对的优势,最近的交锋是双方互有胜负。这证明了五子棋是看似简单实则难度很高的棋类游戏。本文基于深度强化学习理论,同时借鉴Alphazero算法思想,对五子棋AI做出积极探索。在棋形状态的描述方法和策略价值网络的结构上提出自己新的独特的设计,以求获得策略价值网络更好的训练速度和收敛精度,并最终在棋力上取得强劲的表现。一方面,在棋形状态的描述方法上,本文提出了两种新设计。一是在基本的棋形描述基础上引入多个描述历史走子的特征平面,称为N步历史。根据马尔科夫决策过程,这些新引入的特征平面似乎是冗余的,但实验证明它对策略价值网络的收敛速度有显著影响。二是针对五子棋本身的下棋特点设计了对棋形状态进行区域价值细分的描述方法,实验也证明它提升了网络的收敛精度,同时棋力表现更强。另一个方面,在策略价值网络的结构上,本文设计了一个增强棋形感知力的inception模块,以此提升网络对全局棋形和局部棋形的综合感知。整个网络本文称之为“复合视野网络”,实验表明,复合视野网络具有更好的收敛精度和更强的棋力表现。
其他文献
在冶金、能源等很多工业生产领域,温度检测常是保证产品质量和生产过程安全的一个重要手段,然而由于现场安装空间的限制以及设备运动等客观条件的存在,传统的接触式测温很难
<正>第十五届全国企业管理现代化创新成果评审结果正式公布,国家电网公司"大型电网企业全面社会责任管理"荣获"第十五届国家级企业管理现代化创新成果"一等奖,并排名第一。公
导电水凝胶是一类具有导电性能的三维聚合物交联网络,在电子器件、仿生皮肤、传感器等领域有着巨大的应用潜力。然而,受到自身力学性能较差和功能性单一等问题的限制,导电水
萱草在我国有三千多年的栽培历史,在古代被称为“母亲花”。由于大量降水与栽植地形等因素造成积水,对萱草的培育与观赏品质产生了巨大的影响。因此,选育耐涝萱草品种是萱草育种的重要目标之一。耐涝性强的品种可能携带部分抗性基因。观察其在涝胁迫下的表型变化,研究其抗氧化酶活性的变化,以及无氧呼吸中乙醇、乳酸和丙酮酸的反应变化等,为以后萱草的分子育种提供材料,对萱草种质资源的筛选和扩大奠定基础。主要研究结果如下
<正>19世纪末、20世纪初期严复、梁启超、胡适、蔡元培等人将西方自由主义传入中国,此后经历了一个曲折的思想过程,发展出一种具有中国特色的自由主义。作者认为近代中国的自
会议
多酚类化合物(polyphenols)是植物体受到胁迫而引发自我防御机制时产生的一种次级代谢产物,因自身带有大量羟基,使其具有抗氧化、抗菌、抗肿瘤等多种生物活性,目前已成为研究
合理的社会秩序应被建立在符合多元情感需求的创造和交换体系内,并同时寻求参与者的满足和分配的公平。其核心问题为"在什么意义上,我所得的是应得且足够的"。费希特和黑格尔
目的观察银杏酮酯(extract of ginkgo biloba leaves,EGb50)对体外培养的乳鼠SC增殖的影响,探讨其促进神经再生的作用机制。方法取20只3d龄SD乳鼠坐骨神经,以酶分步消化法分离SC。
该文章介绍了一个多agent的个性化学习路径推荐系统,该系统通过前测来掌握学习者的知识水平,再采用遗传算法来生成最佳学习路径,推荐给学习者。该系统考虑了学习者的水平和推
干涉光刻技术是目前制备纳米图形的重要方法之一,其无需掩膜,且能够产生大面积的图形,优势在于成本低廉、操作简单、快速形成图案。这种功能强大的技术可以制备出大面积的纳