基于生成对抗网络的模仿学习综述

来源 :计算机学报 | 被引量 : 0次 | 上传用户：sunhan88

【摘要】

：

模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数

【作者】

：

林嘉豪章宗长姜冲郝建业

【机构】

：

苏州大学计算机科学与技术学院,南京大学计算机软件新技术国家重点实验室,天津大学智能与计算学部,华为诺亚方舟实验室

【出处】

：

计算机学报

【发表日期】

：

2020年2期

【关键词】

：

模仿学习基于生成对抗网络的模仿学习生成对抗模仿学习模态崩塌样本利用效率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代

其他文献

浙江衢州中药材厚朴特色基地建设

厚朴是我国特产,落叶乔木,高达20m,径粗35cm,寿命达百年以上.它的树皮、花、果实都是常用的重要中药材,干材用途广泛.浙江辉煌集团有限公司在浙江衢州建成万亩中药材厚朴特色

期刊

HPLC法与容量分析法测定布洛芬片含量的比较

目的本文建立用高效液相色谱法测定布洛芬片的含量。方法采用ODS柱（250mm×4.6mm,5μm）,检测波长为263nm,流动相为以醋酸钠缓冲液（取醋酸钠6.13g,加水750mL,振摇使溶解,用冰

期刊

HPLC法容量分析法布洛芬片

桂皮醛通过Caco-2细胞体外吸收模型对白血病K562细胞株的作用

目的研究桂皮醛通过Caco-2细胞体外吸收模型作用于白血病K562细胞株并使K562细胞向髓系、红系分化的情况。方法桂皮醛经Transwell转运池Caco-2细胞模型,确定无细胞毒质量浓度

期刊

桂皮醛K562细胞Caco-2细胞模型表面抗原

教育扩展效应、人口结构效应与受教育平衡程度的波动——新中国成立以来的受教育库兹涅茨曲线

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

教育扩展人口结构变迁教育平衡受教育分布教育库兹涅茨曲线

一部敦煌写本儒学文献专书语言研究的力作——李索教授《敦煌写卷〈春秋经传集解〉异文研究》简介

《敦煌写卷〈春秋经传集解〉异文研究》是李索教授在《敦煌写卷〈春秋经传集解〉校证》之后推出的又一部敦煌写本儒学经典文献专书语言研究的力作，是在其博士学位论文基础上经

期刊

敦煌春秋语言文献儒学博士学位论文

茶树根系土壤微生物群落研究

选取不同年限茶树根系土壤和荒土，测定了土壤微生物主要类群数量。结果表明：茶树根系土壤微生物数量大于荒土，随着种植年限的延长茶树根系土壤中细菌和真菌数量逐渐减少；放线菌数

期刊

茶树根系土壤微生物群落

创新设计新思维

期刊

创新设计设计思维中国制造2025

法学本科素质教育与培养模式初探

法学素质教育的本质属性应体现出人本主义的特点。基本内容应当包括价值取向、法律职业伦理、职业技能和人文品质四个层面。法学专业教育与素质教育具有统一性。法学素质教育

期刊

法学教育素质教育专业教育教育模式law education qulity education major education academic mod

基于生成对抗网络的模仿学习综述

其他学术论文