【摘 要】
:
深度学习和强化学习技术的快速发展推动了人工智能领域中相关理论和技术的创新。自从2016年Alpha Go智能机器人的大获成功,越来越多的科研人员开始关注机器博弈领域算法研究。机器博弈是人工智能领域中难度最大的研究方向之一,根据智能体掌握信息完全与否,机器博弈被划分成两大类:非完全信息机器博弈和完全信息机器博弈。围棋智能体的成功代表着机器博弈领域中完全信息游戏取得了历史性突破。对于状态和动作空间更大
论文部分内容阅读
深度学习和强化学习技术的快速发展推动了人工智能领域中相关理论和技术的创新。自从2016年Alpha Go智能机器人的大获成功,越来越多的科研人员开始关注机器博弈领域算法研究。机器博弈是人工智能领域中难度最大的研究方向之一,根据智能体掌握信息完全与否,机器博弈被划分成两大类:非完全信息机器博弈和完全信息机器博弈。围棋智能体的成功代表着机器博弈领域中完全信息游戏取得了历史性突破。对于状态和动作空间更大,更具有挑战性的非完全信息博弈游戏领域仍然还有很多亟待解决的问题。非完全信息博弈指参与者彼此的信息不完全公开,彼此不完全了解对方得到的特征和信息,所以相比完全信息博弈其难度更大。本文将非完全信息博弈游戏中的典型代表麻将游戏作为研究的切入点,针对非完全信息博弈游戏中的状态维度和动作空间巨大的特点,利用深度强化学习技术,探索基于A3C(Asynchronous Advantage Actor-Critic,异步的优势行动者评论家算法)的深度模型在非完全信息博弈应用中的新方法和新技术。本文主要创新工作如下:(1)针对非完全信息博弈游戏的类别特征,提出了基于类别编码的语义特征。该编码方式作为后面所提出模型的输入特征,目的是使模型更好的学习抽象知识、更好的提取特征。(2)鉴于深度强化学习模型的优势,基于类别编码的语义特征,提出了改进的A3C模型,并基于该模型设计决策方法,解决非完全信息博弈游戏中的决策问题。改进的A3C模型是对原始A3C模型中的“worker”网络结构进行了改进,并采用深度强化学习中的自学习训练方式对改进A3C模型进行训练。通过在天凤在线竞技网站上与人类玩家进行实时实验,验证了所提出的决策方法的胜负率更高。(3)为了进一步优化决策方法,更充分地考虑对手玩家的行为信息,提出了防御模型(Defence Model),对其他玩家的听牌行为进行预测。并且,将基于改进的A3C模型的决策方法和防御模型进行结合,提出了联合决策(Joint Decision)方法,更好地体现了博弈中的“进攻-防守”的仿人思维。通过将联合决策方法在天凤在线竞技网站上与人类玩家进行实时测试,验证了提出的联合决策方法胜负率更高。
其他文献
一直以来国有企业都是我国经济发展的重要力量,在我国的社会主义现代化建设中扮演着重要的角色。然而我国国有企业却普遍存在着企业运行效率低下、经营绩效不理想等问题,国有企业发展不理想成为我国经济发展的痛点、难点。为了解决我国国有企业的发展困难,我国也一直致力于国有企业改革的推进,国有企业混合所有制改革逐渐演变而来。尤其是十八届三中全会后,“混合所有制”迅速成为了我国国有企业改革和公司治理领域的中心话题,
近年来,随着扶贫工作的深入,单纯依靠政府进行扶贫的模式开始显现出不足。习近平总书记在会议上曾多次强调社会扶贫力量的重要性,要求动员全社会的力量参加到扶贫工作中,共同构建三位一体的扶贫局面。在我国的西部地区,特别是边远山区,仍存在贫困现象,其中贫困地区的贫困人口收入水平低、脱贫难度大,目前已经成为实现全面小康目标的主要障碍。因此,在目前的情况下,为体现社会主义的公平性,需要包括企业、社会组织、政府等
期货事业的发展在国家政策扶持下,商品期货品种日益丰富,在金融行业中的地位也不断提高。而随着2018年中国银保监会、中国证监会、国家外管局联合印发《关于规范金融机构资产管理业务的指导意见》,期货行业的资管业务迈入规范化的新纪元。“资管新规”的发布对期货行业自身资管业务、产品线等方面都有了明确的要求,期货资管行业将在“资管新规”的指导下加快转型,这也为期货公司的金融产品的市场营销创设了良好环境,助力期
双链RNA结合蛋白ILF3在动物体内广泛存在,被报道参与了包括转录调控、miRNA的生成、RNA稳定性以及响应病毒感染等重要生物学过程。但由于ILF3结构及生物学功能的复杂性,目前关于ILF3蛋白的靶标和调控作用尚不明确。在本课题中,我们靶向ILF3对RNA的调控,优化CLIP-seq技术和小RNA-seq技术方案,整合分析包括RNA-seq、small RNA-seq、CLIP-seq以及ChI
根据最新的《中国互联网络发展状况统计报告》,中国移动互联网用户数量已高达7.88亿,以手机为中心的智能设备正不断与人们的消费、医疗、学习等需求紧密融合。在教育领域,国家财政教育支出的GDP连续六年超过4%,且教育经费投入仍在增加。移动教育的出现,深化了全民教育和终身教育的发展,并在一定程度上解决了我国教育资源发展不平衡的问题。近年来,出现了各种类型的移动教育APP,这已经成为人们进行移动学习的新方
嗜麦芽菌素P28(maltocin P28)是嗜麦芽寡养单胞菌P28菌株产生的一种类似噬菌体尾部结构的细菌素(PTLB),能够杀死多株嗜麦芽寡养单胞菌。Maltocin P28的基因表达与环境压力的关系尚不清楚,其基因簇编码的ORF3、ORF5和ORF6蛋白的调控方式也待解析。本论文以此两点为出发点,研究了各种环境压力对maltocin P28基因表达调控的影响,随后,明确了SOS反应系统中的Re
KRAS突变常见于胰腺癌和肺癌患者中,并且和患者的预后、免疫反应或免疫治疗相关。为了研究KRAS突变对肿瘤免疫微环境的影响并构建KRAS突变相关基因的预后模型,我们下载了TCGA和GEO数据库中胰腺导管腺癌(pancreatic ductal adenocarcinoma,PDAC)和肺腺癌患者的基因数据和临床资料。以此为基础分析了KRAS突变和野生型患者基因表达的差异,并对差异基因进行单因素Co
有人说注册会计师的发展史是一部诉讼史。国外注册会计师行业的发展,审计准则的发展、审计责任范围的扩展,往往伴随不断发生诉讼案件而演进。但是在我国,注册会计师应承担的审计责任主要由监管部门来认定,更多的体现在证监会处罚上市公司提供虚假的财务信息时,注册会计师因未能发现存在的问题而连带地接受行政处罚。在2019年6月,证监会在处罚华泽钴镍的财务造假事件时,同时处罚了负责其年报审计的瑞华会计师事务所,瑞华
目前三维地籍相关研究中,大量三维产权体彼此邻接、聚集排布形成三维群集对象。针对群集三维对象可视化,存在难以有效地表达以及辅助认知空间内部单个对象(如:产权体)的具体空间位置、空间形态以及对象间的空间关系等问题。本研究基于“Focus+Context”可视化思想,提出三种针对群集三维对象的变形可视化算法,并采用真实三维房产数据生成的群集三维对象作为实验材料,通过空间认知实验探究被试者认知群集三维对象
高空间分辨率的遥感影像具有更加清晰的地物轮廓、更易于判读的纹理几何特征等优势,被广泛应用于农业监测,灾害估计,城市分析,土地利用调查等领域。然而,高分辨率遥感影像表现出了同物异谱和同谱异物的性质,使得同一类别的目标光谱差异性较大,而不同类别的目标光谱差异性较小,因此高分影像的应用仍面临一些迫切需要解决的问题。经典的分类方法往往采用影像中的光谱信息,而忽略了影像所包含的丰富的空间信息。面向对象分割的