【摘 要】
:
强化学习是机器学习的一个重要分支,是一种从与周围环境交互中学习的计算方法。强化学习关注未知环境中智能体实现目标的顺序决策,广泛应用于自然语言处理,机器人控制等领域。区别于传统的机器学习算法,强化学习智能体在与环境的交互过程中获取样本并实现策略学习,同时,智能体需要为交互付出时间和空间的开销。特别是应用于控制系统的强化学习算法,过多的交互会使环境发生改变甚至给智能体和环境带来损伤。因此,能够用最少的
论文部分内容阅读
强化学习是机器学习的一个重要分支,是一种从与周围环境交互中学习的计算方法。强化学习关注未知环境中智能体实现目标的顺序决策,广泛应用于自然语言处理,机器人控制等领域。区别于传统的机器学习算法,强化学习智能体在与环境的交互过程中获取样本并实现策略学习,同时,智能体需要为交互付出时间和空间的开销。特别是应用于控制系统的强化学习算法,过多的交互会使环境发生改变甚至给智能体和环境带来损伤。因此,能够用最少的交互成本学习环境的高效强化学习算法在应用中有着重要价值。在强化学习中,需要考虑两种效率:样本效率和计算效率。样本效率主要考虑真实交互获得的样本用于策略学习的情况,样本高效的强化学习算法应该尽量少的与环境交互,计算效率主要考虑的是实现强化学习任务需要的计算量。本文提出了用于提高样本效率的主动探索强化学习模型。受到主动学习通过选择信息含量大的未标记样例进行标记以提高分类器准确率的启发,结合强化学习获取样本的特点,在强化学习任务中,智能体未访问过的状态动作空间与主动学习任务中未标记样本相似。主动探索强化学习模型通过允许智能体主动地选择信息含量大的动作,使得强化学习任务中,智能体能够探索信息含量更高的样本,探索智能体更感兴趣的状态动作空间,从而有效的提高探索效率和交互效率,加快算法的收敛速度,实现高效强化学习。本文将主动探索强化学习模型应用于解决强化学习的具体问题中,在保证既有算法优势的前提下,进一步提高算法效率。具体包含以下三个研究内容:(1)提出了主动探索的初始样本采集算法,基于主动探索强化学习模型,为有模型强化学习算法采集初始样本集。有模型强化学习的第一步是建立样本集用于训练初始模型,样本集的选择对降低模型不确定性,提高算法收敛速度以及对强化学习任务的实现起着重要作用。主动探索的初始样本采集算法,使用高斯过程建模智能体与环境交互的动力学模型,以最大化下一状态的信息熵为目标,为智能体优化的选择当前交互动作。使用这种优化的策略与环境交互获得优化的初始样本集。相比于随机策略或确定策略,这种基于信息熵的优化采样方法获得的初始样本集信息含量更高。利用该样本集学到的动力学模型更能描述智能体与环境交互的真实情况。使用该方法为有模型强化学习算法选择初始样本集,在解决非线性动力学系统控制问题时,能获得更好的算法效率,进一步提高既有强化学习算法的样本利用率,使得智能体用更少的交互次数实现强化学习任务。(2)提出了主动探索的有模型强化学习算法AEPILCO。基于主动探索强化学习模型,优化有模型强化学习算法的策略更新。传统PILCO算法是一种有模型强化学习算法,在策略更新时,以最小化当前状态和目标状态的距离建立目标函数。PILCO在解决探索与利用问题中,使用的是自然探索法。PILCO在策略学习过程中,不能充分考虑策略更新对模型精度的影响。AEPILCO算法在建立策略更新目标函数时,引入主动探索项,以最大化下一步状态为目标,可以优化智能体的学习策略。利用优化的策略与环境交互,生成的样本也有利于模型的训练。这种基于主动探索强化学习模型的优化探索方法,在解决非线性动力学系统控制问题时,可以在时间开销与原有算法差别不大的前提下,显著地提高样本效率,使得智能体以更少的交互实现强化学习任务。(3)提出了主动探索的无模型强化学习算法AEDDPG。沿用DDPG的行动者评论家结构,行动者网络建模策略,评论家网络建模动作值函数。在此基础上,AEDDPG使用主动探索强化学习模型引入主动探索模块,用以辅助DDPG获得优化策略。主动探索模块使用高斯过程建立动力学模型,充分考虑策略学习对未来智能体可能经历的状态的影响,以最大化潜在状态的信息熵作为目标,间接辅助智能体策略学习。将主动探索的目标融入到DDPG的策略评估中,可以有效的提高探索效率。实验中,将AEDDPG应用于解决非线性动力学系统策略学习任务中,不仅可以解决前面两个内容涉及的高维状态和动作空间问题,相比于自然探索,能够使用更少的交互实现策略学习,实现样本高效。本文受主动学习能够提高分类器准确率的启发,结合强化学习获取样本的特点,提出了主动探索强化学习模型,并将其应用于解决强化学习算法的几个具体问题,包括获取有模型强化学习算法初始样本集,有模型强化学习策略更新以及无模型强化学习的策略更新上。基于主动探索强化学习模型的高效强化学习算法能很好的降低智能体交互成本,提高样本高效性。
其他文献
偏高岭土(MK)是高岭石类粘土在500-800℃下煅烧1-3 h后,经脱羟基衍变而成的一种活性材料,适当研磨后具备超高的比表面积和优异的活性。MK在制备过程中只释放水蒸气,对环境无污染,且能源消耗低,是一种低碳环保的绿色活性材料。超高性能混凝土(UHPC)是近些年新兴的一种极具创造性的水泥基材料,具有超高的力学和耐久性能。但是UHPC存在制备成本高和水泥利用率低等缺点,使其在工程中的应用受到一定程
为了解复杂地形条件下天顶对流层延迟(ZTD)特性并研究其精细化建模,采用四川省56个CORS站的数据,解算其高精度ZTD并对3种不同ZTD模型的精度进行评估,分析了ZTD时空分布特性受地形条件、季节因素的影响。基于ERA-Interim再分析数据建立了区域ZTD格网模型及其精化方法。实验结果表明:1)ZTD随地形分布的变化幅度大,模型的偏差分布也呈现出显著的不一致性,其中Saastamonien模
实际沥青路面中水分扩散行为的普遍性、长期性和隐蔽性使得服役于自然环境中的沥青路面材料不可避免的受到水分扩散侵蚀作用,由此造成的沥青混合料力学性能劣化和耐久性衰减问题不可忽略。水分通过扩散作用进入混合料内部后,与组分材料长期作用造成不同尺度水损伤行为。纳观尺度下水-沥青-集料分子相互作用,改变沥青-集料分子间非键势能,引起体系纳观结构变异;微观尺度下含水纳观结构演化造成胶浆-集料界面及体相流变性质劣
动静压气浮轴承以其摩擦小、精度高、无污染等优点,被广泛应用于高速/高精度加工领域。而以动静压气浮轴承为支撑系统的高速/高精度动静压气浮主轴作为超精密机床的核心零部件,是超精密机床实现超高精度加工的根本基础。然而,动静压气浮轴承还存在刚度较低,承载能力不高和容易失稳等问题,这些问题制约了动静压气浮主轴在高效、稳定、可控和工业化的超精密加工领域的应用。因此,围绕动静压气浮主轴动静态性能的理论分析及动静
基于掺杂氧化镁周期性极化铌酸锂(periodically poled lithium niobate crystal doped Mg O,PPMgLN)晶体的非线性频率变换的激光器能够满足军事光电对抗对于轻量化、结构紧凑的高峰值功率3~5μm中红外固体相干光源的迫切需求,但目前受晶体尺寸、损伤阈值以及晶体对长波长中红外激光吸收等因素的限制,PPMgLN中红外激光器的体积和峰值功率分别有待于缩小和
钠离子电池,因钠资源的储量丰富,分布广泛和成本低廉,已经成为极具潜力的下一代廉价高效储能电池体系。在众多的钠离子电池负极材料中,转化-合金型负极材料由于具有非常高的比容量,是高性能钠离子电池的理想负极材料。然而,因其嵌脱钠过程中发生的较大体积变化,极大降低了电池的循环稳定性。同时,钠离子较大的半径,使得该类材料表现出迟缓的电化学反应动力学,导致电池倍率性能变差。本文针对转化-合金型负极存在的缺点,
航天器是人类探索宇宙,执行空间任务的载体。航天器动力学与控制的研究有助于航天器在空间中平稳可靠的运行,在航天技术发展中起到关键的作用。其中,航天器交会的成功是许多航天任务的先决条件,姿态控制系统直接影响着航天器在轨运行的稳定。随着空间任务的多样化,航天器面临极端的空间环境、日益复杂的结构特性、输入受限、时滞以及时变特征等问题。对这些问题认识的不足会导致航天器控制性能下降或失效。因此,基于这些问题的
在金属塑性变形过程中,塑性变形区的速度场分布可以揭示金属的塑性流动规律,对塑性加工过程的工艺流程制定和参数优化有着重要的理论指导意义。而众多传统解析法所确定的速度场通常是具有不唯一性的动可容场,制约了金属塑性流动理论在速度场求解中的应用。鉴于此,本文研究了基于晶体学物理背景的转动率连续理论所对应的速度场特点。以“扩展滑移”机制发生塑性流动的刚塑性体内部的滑移晶面与其最大剪应力面保持平行,此时转动率
光纤传感技术经历了30年的高速发展,已经广泛应用于现代社会的各个领域,其中应用于惯性导航的光纤陀螺仪和水下声信号探测的光纤水听器是高性能光纤传感器的典型代表,这两种传感器的结构中光纤被绕制成环以增加探测灵敏度和减小体积。但是,受绕制工艺和材料等因素的限制,光纤环的应变、温度和双折射的不均匀分布会引入光学非互易性,最终限制了光纤环的工作性能。因此,研究不同工艺和材料光纤环的应变、温度和双折射等参量的
热防护结构设计是飞行器热管理的关键,是研制高超声速飞行器过程中的主要瓶颈。当飞机器高速飞行时,飞行器表面的温度会大幅度升高。同时机体内部的电子和电气设备要求工作温度不超过85℃,以保障飞机内部设备的正常工作。如此高的温差将给飞机热防护带来严峻挑战,现有的热防护结构设计准则与隔热材料已不能满足可重复使用设计要求,因此研制高性能热防护结构变得极为迫切。针对热防护结构的需求,对轻质防隔热一体化结构的强度