基于生成对抗网络的模仿学习综述

来源 :计算机学报 | 被引量 : 0次 | 上传用户:sunhan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代
其他文献
厚朴是我国特产,落叶乔木,高达20m,径粗35cm,寿命达百年以上.它的树皮、花、果实都是常用的重要中药材,干材用途广泛.浙江辉煌集团有限公司在浙江衢州建成万亩中药材厚朴特色
期刊
目的本文建立用高效液相色谱法测定布洛芬片的含量。方法采用ODS柱(250mm×4.6mm,5μm),检测波长为263nm,流动相为以醋酸钠缓冲液(取醋酸钠6.13g,加水750mL,振摇使溶解,用冰
目的研究桂皮醛通过Caco-2细胞体外吸收模型作用于白血病K562细胞株并使K562细胞向髓系、红系分化的情况。方法桂皮醛经Transwell转运池Caco-2细胞模型,确定无细胞毒质量浓度
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
《敦煌写卷〈春秋经传集解〉异文研究》是李索教授在《敦煌写卷〈春秋经传集解〉校证》之后推出的又一部敦煌写本儒学经典文献专书语言研究的力作,是在其博士学位论文基础上经
选取不同年限茶树根系土壤和荒土,测定了土壤微生物主要类群数量。结果表明:茶树根系土壤微生物数量大于荒土,随着种植年限的延长茶树根系土壤中细菌和真菌数量逐渐减少;放线菌数
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
法学素质教育的本质属性应体现出人本主义的特点。基本内容应当包括价值取向、法律职业伦理、职业技能和人文品质四个层面。法学专业教育与素质教育具有统一性。法学素质教育