基于双重注意力机制的异步优势行动者评论家算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：leijunhua

【摘要】

：

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异

【作者】

：

凌兴宏李杰朱斐刘全伏玉琛

【机构】

：

苏州大学计算机科学与技术学院,苏州大学江苏省计算机信息处理技术重点实验室,吉林大学符号计算与知识工程教育部重点实验室,软件新技术与产业化协同创新中心,常熟理工学院计算机科学与工程学院

【出处】

：

计算机学报

【发表日期】

：

2020年1期

【关键词】

：

注意力机制双重注意力机制行动者评论家异步优势行动者评论家异步深度强化学习 attention mechanismdouble attention mec

【基金项目】

：

国家自然科学基金(61772355,61303108,61373094),江苏省高等学校自然科学研究重大项目(17KJA520004),吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04),苏州市应用基础研究计划工业部分(SYG201422),苏州市民生科技项目(SS201736),江苏高校优势学科建设工程资助项目资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区

其他文献

中西医结合治疗COPD并呼吸衰竭患者的临床疗效

目的对比分析中西医治疗COPD并呼吸衰竭患者的治疗疗效。方法随机抽取医院2017年2月—2018年2月期间收治的58例COPD并呼吸衰竭患者,随机分为对照组和研究组组,各29例,对照组

期刊

中西医结合COPD呼吸衰竭

地方高等教育与区域经济互动的SWOT分析——以张家口地区为例

地方高等教育以其培育人才、创新知识和服务社会的职能,成为区域经济社会发展的动力之源。地方政府应从实现区域战略目标的需要出发,按照科学发展观的要求,对地方高校统筹规

期刊

张家口地方高等教育区域经济

城市社会学视野中的城市化与社会保障

期刊

社会学视野社会保障制度社会整合家庭制度社会服务机构社区服务意识形态领域城市地域社会进步社会保障模式

发热、偏瘫、嗜睡

1 病历摘要女性,12岁,学生.家住山东省日照市东港区农村,于1993年11月27日人院.患儿于人院前4月自觉全身乏力,每天下午发热,精神食欲不振,体力逐渐不支,未予诊治.1个月前某晨

期刊

嗜睡偏瘫半身不遂风证

头孢哌酮/舒巴坦与左氧氟沙星治疗老年支气管扩张急性加重患者的有效性和安全性比较

目的比较头孢哌酮/舒巴坦与左氧氟沙星治疗老年支气管扩张急性加重患者的有效性和安全性。方法将90例符合标准的老年支气管扩张急性加重期患者随机分为观察组和对照组,分别

期刊

头孢哌酮/舒巴坦左氧氟沙星支气管扩张急性加重期

装饰工艺在服装设计中的运用

服装是人们日常生活的必需品,早在原始时期的人们就已经意识到应该将一些物品穿在自己身上,从而起到保护作用。随着人们生活水平的提升,服装的价值也不再局限于保护自己,而是

期刊

装饰工艺服装设计运用

记录时代变迁书写中国梦新篇章

12月1日，由中共深圳市委宣传部、中国作协创联部、人民文学出版社主办的“深圳报告——迎庆改革开放40周年主题创作（短篇报告文学）活动”在广东深圳启动。中国作协副主席阎晶明，

报纸

乳腺癌术中冰冻诊断准确性的相关影响因素探析

目的：研究和探讨乳腺癌术中冰冻诊断准确性的相关影响的因素.方法：收集本院收治的210例进行手术的乳腺癌患者,所有患者在术中均接受冰冻病理切片检查,检查中将肿瘤组织的大小和

期刊

乳腺癌冰冻诊断组织学大小病理分级

基于双重注意力机制的异步优势行动者评论家算法

其他学术论文