一种采用模型学习和经验回放加速的正则化自然行动器评判器算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：liuyumingming

【摘要】

：

行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出

【作者】

：

钟珊刘全傅启明龚声蓉董虎胜

【机构】

：

苏州大学计算机科学与技术学院,常熟理工学院计算机科学与工程学院,吉林大学符号计算与知识工程教育部重点实验室,苏州科技大学江苏省建筑智慧节能重点实验室,软件新技术与产业化协同创新中心,苏州科技大学电子与

【出处】

：

计算机学报

【发表日期】

：

2019年03期

【关键词】

：

行动器评判器算法模型学习经验回放最优策略正则化自然梯度

【基金项目】

：

国家自然科学基金项目(61772355,61702055,61303108,61373094,61472262,61502323,61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020);江苏省高校自然科学研究面上项目(16KJD520001);江苏省科技计划项目(BK2015260);吉林大学符号计算与知识工程教育部重点实验室基金项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.

其他文献

隆化县金融精准扶贫研究

中国是一个拥有十三亿人口的发展中国家,由于经济发展不平衡和资源分布不均衡的影响,我国很多地区仍未摆脱贫困,生活水平还没有得到显著改善。2017年10月18日~24日召开的十九

学位

隆化县金融扶贫精准扶贫政银企户保扶贫模式

基于两尺度模型的CRCP第二阶段冲断机理与预估研究

冲断是指由两个间距很小(小于0.6m)的横向裂缝与短的纵向裂缝和路面边缘(或纵向接缝)所围成的区域。冲断是CRCP的主要病害形式,在冲断形成初期,路面状况良好,对行车舒适性及

学位

第二阶段冲断两尺度模型离散元方法后续开裂剥落冲断预估维修标准

犬腹股沟疝的诊断和治疗体会

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

疝内容物疝囊壁碳酸氢钠注射液安痛定肌内注射治疗体会

外源H2O2对盐碱混合胁迫下裸燕麦幼苗生长和抗性生理的影响

为探讨信号分子过氧化氢（H2O2）增强裸燕麦盐碱耐性的作用及其生理机制,以裸燕麦品种‘定莜6号’为材料,在日光温室内用珍珠岩培养幼苗至三叶一心期时叶面喷施0. 01 mmol·L-1H2

期刊

过氧化氢裸燕麦盐碱混合胁迫活性氧代谢渗透调节物质

金色里的中国

期刊

中国中华人民共和国

翻车机解列车型混编车组定位设计

利用接近开关解决解列作业时拔车机拨车前行停止位置不当的问题，重新设计解列混编车组定位程序，提高拨车机定位的准确性。

期刊

翻车机解列混编车组定位

水上应急物资储备选址—分配问题研究

接连发生的水上突发事件,不仅对经济造成巨大损失,还对环境带来巨大破坏。国家针对水上应急物资储备的资金投入不断加大,未来还要建设一批水上应急物资储备库。科学合理规划

学位

水上应急物资储备库选址-分配政企联合合作博弈救援船舶配备

型材成品台架系统优化升级

型材生产线收集台架系统存在结构不合理、强度刚性小等问题，经常发生消除链条频繁断裂、链轮崩裂滚键、链臂易变形开焊等设备故障。对收集台架系统进行优化改造，降低故障率，提高

期刊

型材成品收集故障改进

一种采用模型学习和经验回放加速的正则化自然行动器评判器算法

其他学术论文