基于动机的强化学习及其应用研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户：qnmdmmm

【摘要】

：

传统强化学习通常只考虑其外在动机,即针对某一特定的、具体的目标任务,设计专门的外部奖励信号用以驱动智能体进行行为策略的学习,以实现长期累积奖励的最大化。奖励信号通

【作者】

：

鲁成祥

【机构】

：

曲阜师范大学

【出处】

：

曲阜师范大学

【发表日期】

：

2016年期

【关键词】

：

强化学习自主学习奖励设计内在动机情感值迭代算法优先扫除算法 Robot Operating System(ROS)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统强化学习通常只考虑其外在动机,即针对某一特定的、具体的目标任务,设计专门的外部奖励信号用以驱动智能体进行行为策略的学习,以实现长期累积奖励的最大化。奖励信号通常需要系统设计者根据场景和智能体自身的特点进行专门设计以提高学习效率,缺乏设计上的通用性和学习上的主动性。针对降低奖励信号设计难度和实现智能体自主学习的需要,本文在对现有的动机奖励机制和动机强化学习框架进行研究的基础上,借鉴情感心理在人类行为决策中的角色,通过将智能体感知到的状态映射为情感维度,提出了一种量化的情感模型作为内在动机机制。内在情感动机在外界奖励信号的基础上提供附加补充奖励,或者单独作为奖励来驱动智能体进行学习,从而形成一套闭环的“感知–评价–内在情感动机相关奖励与外界奖励相结合–强化学习–行动–感知”基于情感动机的强化学习框架。内在情感动机与具体的任务无关,因此具有一定的通用性,其量化模型中,好奇心通过评价状态和动作的新奇程度来控制智能体对陌生或熟悉环境的探索偏好;控制欲通过评价智能体对环境模型的掌控程度来调节智能体在“保守”和“冒险”策略间的权衡;而幸福指数则用来判断当前状态和动作的相对优劣程度,对外部奖励进行微调;三者结合作为内在动机共同实现对智能体学习和行为偏好的调整。在基于情感动机的强化学习框架的基础上,本文对其在提高传统强化学习中具体任务学习效率方面的应用进行了仿真验证:一是将内在情感动机驱动的学习作为具体任务学习的“预习阶段”,提前学习到尽可能准确的环境模型供后期具体任务学习时利用,并缓解传统强化学习中的“探索–利用”两难问题;二是将内在情感动机作为附加奖励与外部奖励融合为一体,以更高效地直接驱动具体任务的学习。通过在开源机器人软件开发框架Robot Operating System(ROS)上搭建猫作为智能体捕捉老鼠的仿真场景、设计实验方案并与单纯外部奖励驱动的学习进行对比,证明了情感作为内在动机在提高具体任务学习效率方面的通用效果以及本文所提情感动机量化方案的合理性。另外,针对基于情感动机的强化学习在智能体个性化定制方面的应用,本文也做了初步的探讨,通过调节情感动机模型的相关参数和引入更高抽象层次的情感维度,将可以方便地设计出性格和行为模式各异的智能体,可用于人机交互和虚拟角色设计等场景和任务中。

其他文献

基于人工生命约束条件的玉米虚拟生长模型的构建与可视化

计算机图形技术和仿真技术的飞速发展,推动了对自然界中植物仿真的研究。虚拟植物涉及到植物学、数学、图形学、教育学等多种学科,是一个跨学科的交叉性研究领域。准确的说虚

学位

人工生命虚拟植物子结构L-系统生长函数

面向服务的山西省地理信息公共服务平台建设

本文介绍了地理信息共享模式的发展历程，分析从面向文件共享，面向数据库共享的模式思路，发展了以在线服务体系为核心的地理信息共享新模式。分析了地理信息共享服务的目标、服务

学位

面向服务技术地理信息公共服务平台共享模式数据库设计

无线传感器网络中分布式广播算法研究

广播是无线传感器网络中的基本问题之一,它的效率直接决定了许多高层应用和协议(如路由发现协议)的性能。根据所要广播的消息个数不同,可以将广播问题划分为单消息广播和多消

学位

全局广播SINR分布式异步无线网确定性算法

基于QoS的Web服务组合优化选取问题研究

Web服务是一种新型的、分布式应用程序,以其完全开放、松散耦合、基于标准、高度可集成等优点,得到产业界和学术界的广泛认可。现有的众多Web服务因服务粒度过小的问题而限制

学位

Web服务Web服务组合服务质量

面向OPHONE手机的说话人识别技术移植研究

说话人识别是生物特征识别中最重要的身份认证技术之一。它通过分析人的声音波形特征,对目标说话人进行身份确认。目前,说话人识别技术的应用和研究绝大部分都集中在普通个人

学位

说话人识别移动平台阀值确定参数优化

典型网络安全事件模拟的真实性验证方法研究

近年来,网络中的各种各样的安全事件的频发,特别是大规模的网络安全事件如分布式拒绝服务攻击、网络蠕虫、僵尸网络,对社会造成了很大经济损失。考虑到网络安全事件本身的危

学位

网络模拟真实性真实性验证传播模型

面向邮件附件的恶意代码检测系统

近年来,Internet的发展势不可挡,新的网络应用日新月异,层出不穷,对传统的互联网业务造成巨大冲击。很多曾经耳熟能详的服务已经悄然销声匿迹。但是电子邮件凭借其庞大的用户

学位

邮件还原静态检测结构指纹颜色矩形状不变矩

图聚集算法与聚集图质量评价算法研究

现实世界中存在大量用图建模并表示的数据,如道路网络、社会网络、生物网络、Web图等,其中顶点表示实体,边表示实体之间的关系。随着图模型的广泛应用,图数据规模也越来越大,

学位

图聚集聚集图质量评价局部敏感哈希熵

基于AFSA的网格资源调度策略研究

当前,计算机技术和网络技术不断取得新的突破,极大的满足了人们的工作和生活的需要,但是在许多领域,人们对计算机的要求越来越高,单台计算机难以满足计算或存储需求,随着这个

学位

网格资源人工鱼群算法Gridsim元启发式算法

基于DSP的人脸检测式3D立体显示系统研究与实现

随着显示技术的发展,传统的立体显示已经难以满足公众的视觉需要。为了提供更好的视觉体验,自由立体显示技术已经成为重要研究领域和市场的热点。基于运动视差的3D立体显示技

学位

3D立体显示运动视差人脸检测摄像机标定空间转换

基于动机的强化学习及其应用研究

其他学术论文