【摘 要】
:
近些年来,作为机器学习领域的重要组成部分之一,强化学习的研究工作取得了极大进展。通过强化学习机理,智能体可以不断学习和得到环境中所包含的信息,继而可以指导自身获得最
论文部分内容阅读
近些年来,作为机器学习领域的重要组成部分之一,强化学习的研究工作取得了极大进展。通过强化学习机理,智能体可以不断学习和得到环境中所包含的信息,继而可以指导自身获得最佳的行为。本文课题提出了一种具有“冻结点”机制的动作-评价网络算法,利用深度Q网络算法和策略梯度算法进行网络参数的训练,并针对时序差分算法在参数更新与梯度计算过程中存在收敛速度较慢等缺点进行改进,同时提升算法的稳定性。通过对评价网络中网络参数的更新方式和损失函数的改进,以及在动作网络中加入经验回放机制等方式,使得改进后的算法实现了更快的网络参数训练速度以及更好的稳定性能。课题的主要内容与贡献可总结为:1.本文首先提出了一种线性预估器加速算法(ALA-AC),该算法改变了以往深度神经网络参数的更新方式,通过引入“冻结点”的参数更新模式,提高了算法的收敛速度和稳定性。通过前期所做的大量实验,并与常规的动作-评论网络算法进行对比与分析,证明了本文所提出的ALA-AC算法具有更高的学习效率和更快的收敛速度。2.在本文所提出的ALA-AC算法的基础上,采用均方投影贝尔曼误差作为目标函数,进而对网络参数进行更新与提升,这在一定程度上避免了参数在训练过程中产生误差过大的情况。通过对ALA-AC算法与改进算法的实验结果进行反复比较与分析,改进后算法展现出更佳的收敛性和稳定性。将常规动作-评价网络算法、ALA-AC算法和改进后的ALA-AC算法用于解决无人车的最佳路径选择问题,通过反复的验证实验表明,改进后的两种算法表现出更加优异的效果。
其他文献
目前深度学习在各个领域取得巨大的成功,例如图像识别、目标检测和自然语言处理等任务,但是这些任务取得成功的前提是拥有大量的数据标签,然而在实际应用中,有些任务较难获取
海洋环境大数据处理是建设智慧海洋的重要组成部分,在合理地开发海洋资源、准确地预测预警海洋灾害、有效地保护海洋环境等方面具有重要的现实意义。因此将我国某海海域环境
视觉SLAM是智能机器人和无人驾驶汽车在未知环境中实现完全自主导航的关键技术。传统的视觉SLAM重在几何的定位和建图,没有感知环境的语义信息,因此,在其基础上,能够构建具有
社区问答论坛——如Stack Overflow,Stack Exchange,教育论坛——如大规模在线公开课(Massive Open Online Course,简称MOOC)论坛是网民学习交流中重要的媒介。人们对信息质
微喷射粘结成形技术具有成本低、可使用的原材料广泛、绿色环保等优势。软件在微喷射粘结成形中占有相当重要的地位,其对成形的精度也有很大影响,且不同设备之间软件一般不具有通用性。本文针对自主研发的微喷射粘结成形设备,研发了一套专用、高效率、操作简单的数据处理及控制软件。STL是常用的快速原型文件,STL文件中的数据较多,且顶点有重复存储的现象。通过建立三角面片的点、边、面的拓扑结构,去除了顶点的重复存储
近些年,物联网(Internet Of Thing,简称IOT)得到了快速发展和推广。医疗物联网作为物联网重要组成部分,已逐步采用射频识别(Radio Frequency Identification,简称RFID)作为技
随着物联网的兴起,利用Wi-Fi的信道状态信息(Channel State Information,CSI)实现人体行为感知对智能家居、智慧医疗等具有重要意义。与基于传感器、视频等人体行为感知相比,
随着互联网的发展,网络教学系统需求十分旺盛,视频教学素材的处理成为比较重要的研究和应用领域。教师在对1080P或4K的视频素材进行处理时面临巨大挑战;此外部分教学内容还存
中国的经济要想稳定向前发展,离不开农业的支撑,在十九大会议中,习近平书记明确强调了农业、农村、农民的问题是国计民生中最本质的问题,党的工作中,要时刻把解决好三农问题作为全党工作的重要任务。寻甸县属于一个农业大县,但是农业大而不强,农业对于当地经济的发展具有重要地位,在农业生产过程中,农户需要应对很多风险,不同强度农业风险的发生,致使农户对农业风险的态度出现差异,并且产生了不同的农业生产行为,形成了
在人类学习过程的启发下,迭代学习控制(Iterative Learning Control,ILC)应运而生,其关键思想是在重复中学习,从而改善系统的暂态响应和跟踪性能。若将迭代学习控制与反馈控