论文部分内容阅读
强化学习是智能体通过与环境交互的“试错”,最大化累积奖励,以期找到最优策略的一种学习方式。随着深度学习在图像识别、自然语言处理、无人驾驶等领域取得成功,其强大的表征能力与强化学习决策能力结合而成的深度强化学习,逐步在博弈游戏、自动驾驶、推荐系统等领域得到应用。然而,深度强化学习在奖励比较稀疏或者有延迟的情况下,仍然面临着因为策略更新受阻而导致智能体学习性能差的问题。奖励设计是解决上述问题的主要机制之一,它通过结合人的先验知识来设计更频繁的奖励或训练信号,以引导策略学习方向,该方向研究仍是学术界和工业界的关注点,本文对基于奖励设计的深度强化学习算法开展了研究,主要工作如下:本文提出了一种通过游戏图像进行阶段目标表示以实现奖励设计的阶段目标奖励设计方法(PGR),实现了基于阶段目标奖励设计的深度强化学习算法(PPO-PGR)。该算法使用游戏中的状态图像表示智能体的阶段目标,并使用帧数间隔的目标距离衡量阶段目标完成度,由此设计阶段目标奖励函数,从而引导智能体的强化学习策略更新,以实现智能体学习性能的提升。基于Atari环境上的Kangaroo游戏对学习性能进行了验证评估,和近端策略优化算法比较,所提方法在环境得分性能指标上取得更好的表现。本文提出了一种在探索奖励机制上引入先验知识导向其方向的奖励设计方法(DEC),实现了阶段目标及探索奖励衰减混合的深度强化学习算法(PGR-DEC)。该算法引入积极和消极的游戏结果分类知识,并以游戏状态图像表示。设计了基于先验知识衰减的探索奖励,从而引导智能体在稀疏奖励环境中既能保持探索机制获得未知策略学习的机会,又能降低盲目探索导致的低效学习风险。在Atari环境的Kangaroo游戏上,所提PGR-DEC算法与内生好奇心模型算法(ICM)进行比较评估,实验表明所提算法能取得更高的环境得分。