深度强化学习的梯度时序差分评价网络算法研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户：qiminfenglin1

【摘要】

：

近些年来,作为机器学习领域的重要组成部分之一,强化学习的研究工作取得了极大进展。通过强化学习机理,智能体可以不断学习和得到环境中所包含的信息,继而可以指导自身获得最

【作者】

：

郑钰

【出处】

：

北京化工大学

【发表日期】

：

2020年01期

【关键词】

：

强化学习策略梯度动作-评价网络线性预估器均方投影贝尔曼误差

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年来,作为机器学习领域的重要组成部分之一,强化学习的研究工作取得了极大进展。通过强化学习机理,智能体可以不断学习和得到环境中所包含的信息,继而可以指导自身获得最佳的行为。本文课题提出了一种具有“冻结点”机制的动作-评价网络算法,利用深度Q网络算法和策略梯度算法进行网络参数的训练,并针对时序差分算法在参数更新与梯度计算过程中存在收敛速度较慢等缺点进行改进,同时提升算法的稳定性。通过对评价网络中网络参数的更新方式和损失函数的改进,以及在动作网络中加入经验回放机制等方式,使得改进后的算法实现了更快的网络参数训练速度以及更好的稳定性能。课题的主要内容与贡献可总结为:1.本文首先提出了一种线性预估器加速算法(ALA-AC),该算法改变了以往深度神经网络参数的更新方式,通过引入“冻结点”的参数更新模式,提高了算法的收敛速度和稳定性。通过前期所做的大量实验,并与常规的动作-评论网络算法进行对比与分析,证明了本文所提出的ALA-AC算法具有更高的学习效率和更快的收敛速度。2.在本文所提出的ALA-AC算法的基础上,采用均方投影贝尔曼误差作为目标函数,进而对网络参数进行更新与提升,这在一定程度上避免了参数在训练过程中产生误差过大的情况。通过对ALA-AC算法与改进算法的实验结果进行反复比较与分析,改进后算法展现出更佳的收敛性和稳定性。将常规动作-评价网络算法、ALA-AC算法和改进后的ALA-AC算法用于解决无人车的最佳路径选择问题,通过反复的验证实验表明,改进后的两种算法表现出更加优异的效果。

其他文献

基于深度学习的领域自适应方法研究

目前深度学习在各个领域取得巨大的成功,例如图像识别、目标检测和自然语言处理等任务,但是这些任务取得成功的前提是拥有大量的数据标签,然而在实际应用中,有些任务较难获取

学位

领域自适应深度学习标签传播主动学习

面向机器学习的海洋环境数据分析与预测研究

海洋环境大数据处理是建设智慧海洋的重要组成部分,在合理地开发海洋资源、准确地预测预警海洋灾害、有效地保护海洋环境等方面具有重要的现实意义。因此将我国某海海域环境

学位

海洋环境数据关联分析支持向量机非线性平滑时间序列预测赤潮预警

基于3D点云深度学习的视觉语义地图构建研究

视觉SLAM是智能机器人和无人驾驶汽车在未知环境中实现完全自主导航的关键技术。传统的视觉SLAM重在几何的定位和建图,没有感知环境的语义信息,因此,在其基础上,能够构建具有

学位

视觉SLAM3D语义信息动态场景语义地图定位导航

基于词对句交互机制与多任务学习的论坛重复问题检测算法研究

社区问答论坛——如Stack Overflow,Stack Exchange,教育论坛——如大规模在线公开课(Massive Open Online Course,简称MOOC)论坛是网民学习交流中重要的媒介。人们对信息质

学位

重复问题检测词对句交互机制语义匹配多任务学习

微喷射粘结成形设备软件的研发及应用

微喷射粘结成形技术具有成本低、可使用的原材料广泛、绿色环保等优势。软件在微喷射粘结成形中占有相当重要的地位,其对成形的精度也有很大影响,且不同设备之间软件一般不具有通用性。本文针对自主研发的微喷射粘结成形设备,研发了一套专用、高效率、操作简单的数据处理及控制软件。STL是常用的快速原型文件,STL文件中的数据较多,且顶点有重复存储的现象。通过建立三角面片的点、边、面的拓扑结构,去除了顶点的重复存储

学位

微喷射粘结成形数据处理分层切片图形填充控制软件

基于ISO18000-4B的2.4GHz RFID模块的研究与设计

近些年,物联网(Internet Of Thing,简称IOT)得到了快速发展和推广。医疗物联网作为物联网重要组成部分,已逐步采用射频识别(Radio Frequency Identification,简称RFID)作为技

学位

射频识别读写器ISO18000-4B自适应匹配技术

无线环境下基于机器学习的无源人体行为感知

随着物联网的兴起,利用Wi-Fi的信道状态信息(Channel State Information,CSI)实现人体行为感知对智能家居、智慧医疗等具有重要意义。与基于传感器、视频等人体行为感知相比,

学位

人体行为感知信道状态信息支持向量机深度神经网络

基于云存储的分布式教学视频处理系统

随着互联网的发展,网络教学系统需求十分旺盛,视频教学素材的处理成为比较重要的研究和应用领域。教师在对1080P或4K的视频素材进行处理时面临巨大挑战;此外部分教学内容还存

学位

视频处理系统人眼自动打马赛克深度学习

风险视角下寻甸县农户农业生产行为研究

中国的经济要想稳定向前发展,离不开农业的支撑,在十九大会议中,习近平书记明确强调了农业、农村、农民的问题是国计民生中最本质的问题,党的工作中,要时刻把解决好三农问题作为全党工作的重要任务。寻甸县属于一个农业大县,但是农业大而不强,农业对于当地经济的发展具有重要地位,在农业生产过程中,农户需要应对很多风险,不同强度农业风险的发生,致使农户对农业风险的态度出现差异,并且产生了不同的农业生产行为,形成了

学位

农业风险类型风险强度风险态度农业生产行为BP神经网络

反馈辅助PD型量化迭代学习控制方法研究

在人类学习过程的启发下,迭代学习控制(Iterative Learning Control,ILC)应运而生,其关键思想是在重复中学习,从而改善系统的暂态响应和跟踪性能。若将迭代学习控制与反馈控

学位

迭代学习控制反馈辅助PD策略数据量化数据包丢失变批次长度初始状态

深度强化学习的梯度时序差分评价网络算法研究

其他学术论文