基于双重注意力机制的异步优势行动者评论家算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:leijunhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区
其他文献
据加拿大老龄化追踪研究结果表明,低果蔬摄入量的人群患焦虑症的概率更高。有相关研究人员指出,对于那些每天食用少于3种果蔬的人,患焦虑症的概率至少高出24%,这也部分解释了
目的对比分析中西医治疗COPD并呼吸衰竭患者的治疗疗效。方法随机抽取医院2017年2月—2018年2月期间收治的58例COPD并呼吸衰竭患者,随机分为对照组和研究组组,各29例,对照组
地方高等教育以其培育人才、创新知识和服务社会的职能,成为区域经济社会发展的动力之源。地方政府应从实现区域战略目标的需要出发,按照科学发展观的要求,对地方高校统筹规
1 病历摘要女性,12岁,学生.家住山东省日照市东港区农村,于1993年11月27日人院.患儿于人院前4月自觉全身乏力,每天下午发热,精神食欲不振,体力逐渐不支,未予诊治.1个月前某晨
目的 比较头孢哌酮/舒巴坦与左氧氟沙星治疗老年支气管扩张急性加重患者的有效性和安全性。方法 将90例符合标准的老年支气管扩张急性加重期患者随机分为观察组和对照组,分别
服装是人们日常生活的必需品,早在原始时期的人们就已经意识到应该将一些物品穿在自己身上,从而起到保护作用。随着人们生活水平的提升,服装的价值也不再局限于保护自己,而是
最近在石油勘探中关于如何测知正确的地温分布一事据认为是非常重要的。已有人提出从电测井所取得的井下温度(BHT)中推定与实际地温的近似值(静态温度,TF)的方法(Dowdle和Cob
期刊
12月1日,由中共深圳市委宣传部、中国作协创联部、人民文学出版社主办的“深圳报告——迎庆改革开放40周年主题创作(短篇报告文学)活动”在广东深圳启动。中国作协副主席阎晶明,
报纸
目的:研究和探讨乳腺癌术中冰冻诊断准确性的相关影响的因素.方法:收集本院收治的210例进行手术的乳腺癌患者,所有患者在术中均接受冰冻病理切片检查,检查中将肿瘤组织的大小和