基于奖励设计的深度强化学习算法研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sm2998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是智能体通过与环境交互的“试错”,最大化累积奖励,以期找到最优策略的一种学习方式。随着深度学习在图像识别、自然语言处理、无人驾驶等领域取得成功,其强大的表征能力与强化学习决策能力结合而成的深度强化学习,逐步在博弈游戏、自动驾驶、推荐系统等领域得到应用。然而,深度强化学习在奖励比较稀疏或者有延迟的情况下,仍然面临着因为策略更新受阻而导致智能体学习性能差的问题。奖励设计是解决上述问题的主要机制之一,它通过结合人的先验知识来设计更频繁的奖励或训练信号,以引导策略学习方向,该方向研究仍是学术界和工业界的关注点,本文对基于奖励设计的深度强化学习算法开展了研究,主要工作如下:本文提出了一种通过游戏图像进行阶段目标表示以实现奖励设计的阶段目标奖励设计方法(PGR),实现了基于阶段目标奖励设计的深度强化学习算法(PPO-PGR)。该算法使用游戏中的状态图像表示智能体的阶段目标,并使用帧数间隔的目标距离衡量阶段目标完成度,由此设计阶段目标奖励函数,从而引导智能体的强化学习策略更新,以实现智能体学习性能的提升。基于Atari环境上的Kangaroo游戏对学习性能进行了验证评估,和近端策略优化算法比较,所提方法在环境得分性能指标上取得更好的表现。本文提出了一种在探索奖励机制上引入先验知识导向其方向的奖励设计方法(DEC),实现了阶段目标及探索奖励衰减混合的深度强化学习算法(PGR-DEC)。该算法引入积极和消极的游戏结果分类知识,并以游戏状态图像表示。设计了基于先验知识衰减的探索奖励,从而引导智能体在稀疏奖励环境中既能保持探索机制获得未知策略学习的机会,又能降低盲目探索导致的低效学习风险。在Atari环境的Kangaroo游戏上,所提PGR-DEC算法与内生好奇心模型算法(ICM)进行比较评估,实验表明所提算法能取得更高的环境得分。
其他文献
稀疏表示在计算机视觉、信号处理、模式识别、图像处理等领域,特别是在人脸识别领域,引起了广泛的关注。稀疏表示的基本原理是用尽可能少的原子在超完备字典中描述一个信号,它具有区分性,在理论和实际应用中都有较好的声誉。随着人工智能在现实生活中的应用越来越广泛,对快速、可靠的机器学习算法,特别是分类和目标识别算法的需求也越来越大。为此,稀疏表示分类(SRC)是最近提出的一种基于稀疏表示理论的分类方法。由于稀
行人重识别(Person Re-Identification,Re-ID)是利用视觉信息判断图像或者视频中是否存在特定行人的技术,该技术无需监控网络的结构信息,即可实现跨摄像头设备下的行人身份关联。作为智能视觉监控系统的关键技术之一,行人重识别在刑侦调查、安防安保中发挥着极其重要的作用。受到拍摄场景、拍摄视角、行人姿态、行人衣着等因素的影响,同一行人的外观存在较大的差异性,而不同行人的外观可能存在