论文部分内容阅读
传统强化学习通常只考虑其外在动机,即针对某一特定的、具体的目标任务,设计专门的外部奖励信号用以驱动智能体进行行为策略的学习,以实现长期累积奖励的最大化。奖励信号通常需要系统设计者根据场景和智能体自身的特点进行专门设计以提高学习效率,缺乏设计上的通用性和学习上的主动性。针对降低奖励信号设计难度和实现智能体自主学习的需要,本文在对现有的动机奖励机制和动机强化学习框架进行研究的基础上,借鉴情感心理在人类行为决策中的角色,通过将智能体感知到的状态映射为情感维度,提出了一种量化的情感模型作为内在动机机制。内在情感动机在外界奖励信号的基础上提供附加补充奖励,或者单独作为奖励来驱动智能体进行学习,从而形成一套闭环的“感知–评价–内在情感动机相关奖励与外界奖励相结合–强化学习–行动–感知”基于情感动机的强化学习框架。内在情感动机与具体的任务无关,因此具有一定的通用性,其量化模型中,好奇心通过评价状态和动作的新奇程度来控制智能体对陌生或熟悉环境的探索偏好;控制欲通过评价智能体对环境模型的掌控程度来调节智能体在“保守”和“冒险”策略间的权衡;而幸福指数则用来判断当前状态和动作的相对优劣程度,对外部奖励进行微调;三者结合作为内在动机共同实现对智能体学习和行为偏好的调整。在基于情感动机的强化学习框架的基础上,本文对其在提高传统强化学习中具体任务学习效率方面的应用进行了仿真验证:一是将内在情感动机驱动的学习作为具体任务学习的“预习阶段”,提前学习到尽可能准确的环境模型供后期具体任务学习时利用,并缓解传统强化学习中的“探索–利用”两难问题;二是将内在情感动机作为附加奖励与外部奖励融合为一体,以更高效地直接驱动具体任务的学习。通过在开源机器人软件开发框架Robot Operating System(ROS)上搭建猫作为智能体捕捉老鼠的仿真场景、设计实验方案并与单纯外部奖励驱动的学习进行对比,证明了情感作为内在动机在提高具体任务学习效率方面的通用效果以及本文所提情感动机量化方案的合理性。另外,针对基于情感动机的强化学习在智能体个性化定制方面的应用,本文也做了初步的探讨,通过调节情感动机模型的相关参数和引入更高抽象层次的情感维度,将可以方便地设计出性格和行为模式各异的智能体,可用于人机交互和虚拟角色设计等场景和任务中。