基于不确定知识的强化学习及其应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：cmz

【摘要】

：

强化学习是人工智能中策略学习的一种，是一种重要的机器学习方法，用于解决可感知环境的自主agent，如何学习选择出实现其目标的最优行为策略。由于强化学习通过与环境的直接交互

【作者】

：

杨志华

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2008年期

【关键词】

：

强化学习人工智能策略学习机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是人工智能中策略学习的一种，是一种重要的机器学习方法，用于解决可感知环境的自主agent，如何学习选择出实现其目标的最优行为策略。由于强化学习通过与环境的直接交互进行学习，具有试错评价、延迟回报、目标导向等特点，在许多agent中得到了较好的应用，特别是在移动机器人的智能实现取得了较好的成果。移动机器人是机器人学和智能控制的重要研究领域，是当今智能发展的重要方面与主要体现，其研究目标是使机器人具有高度自规划、自组织、自适应能力，可在复杂的非结构环境中自主移动并完成相应任务；因此，自主导航技术是其研究的核心，而无碰运动则是机器人应具备的基本能力。利用强化学习方法更好的实现未知环境下的移动机器人自主导航、避碰技术，对学习算法的应用推广及移动机器人的工程实现等均具有重要的意义。但是，随着强化学习在实际应用的进一步推广，该方法也面临着越来越多的困难及挑战。首先是在实际应用中由agent自身及外界环境所引起的各种不确定性问题，使得学习算法难于很好的实用推广；其次是学习算法的收敛效率问题，较慢的收敛速度使得各种算法在理论研究或仿真实验中取得的成果不适用于实际的学习问题。因此，从实用的角度对强化学习方法及其在移动机器人智能中的实现进行更深入的研究显得尤为重要。本文首先分析了强化学习在实际应用中的不足，总结了目前国内外研究的主要不确定性知识表示方法：概率统计、模糊理论、定性推理以及灰色系统理论等，并对各种表示方法的特点等进行了比较研究；进而将强化学习方法与这些不确定性知识表示方法结合起来，详细阐述了模糊强化学习、定性强化学习以及灰色强化学习等强化学习方法，并分析了各种方法的优缺点，为强化学习算法的工程实用奠定了较好的基础。针对移动机器人自学习导航收敛效率较低，理论成果难于应用的难题，本文对基于先验知识的强化学习自主导航方法进行了研究。通过对环境模型的灰色先验特性的分析，提出了基于灰色模型信息的强化学习方法(RLBG)：而为更好的运用人类自身的经验知识，研究了基于定性经验知识的强化学习方法(RLBQ)；这些方法对各种不确定性先验知识在强化学习方法及移动机器人自主导航中的更充分有效的运用较有启发及借鉴意义。移动机器人自主运动中经常存在各种不确定性，如外界环境的未知不确定性及机器人自身感知及执行的不确定性等。为实现移动机器人在实际中更好的自主无碰运动，本文在利用强化学习自学习避碰规则库的基础上，结合灰色预测理论的GM(1，1)模型通过对当前及下一距离的预测而对贫信息的有效开发的方法，对基于灰色预测的移动机器人自主避碰进行了研究，并通过仿真实验验证了所提方法具有更好的避碰效果。

其他文献

基于改进粒子群算法和三维Otsu的图像分割研究

图像分割是数字图像处理的基本组成部分,也是接下来对图像进行分析、处理的基础,图像分割的效率和准确性对后续工作来说至关重要。阈值法中Otsu法因为其简单可行而且性能稳定

学位

粒子群算法云模型三维Otsu图像分割混合变异

流浆箱控制系统的故障诊断与远程监控

本论文主要研究内容包括以下三个方面： 1)讨论故障诊断的基本原理(包括故障的定义、故障诊断的主要任务等)，过程监控的量度以及各种故障诊断的方法；并重点介绍专家系统和故障

学位

流浆箱流浆箱控制系统故障诊断远程监控

基于ARM的空间交会运动模拟平台的主控制系统设计

本文以采用集中监控、分散控制多电机方案的国防某实验基地弹目空间交会模拟平台控制系统为基础,运用嵌入式系统方案设计了其主控制器,并通过设计的ZigBee无线协调器加入无线

学位

嵌入式Linux空间交会ZigBee协调器

基于lazyDFA的XML数据流查询处理及优化技术研究

随着金融证券管理、Internet流量监控、Web使用日志等新型应用领域对数据的管理与分析提出了新的要求,数据流及其相关技术已经成为当前数据处理领域的研究热点之一。由于XML

学位

XML数据流XPath表达式自动机优化算法

仿真训练装置及其管式加热炉DCS控制的应用与研究

仿真训练装置原是燕山仿真中心1994年建成的培训技术人员和操作工人培训装置，其工艺流程是以某二甲苯装置中异构化反应的分离工段为参照对象，结合仿真实现的实际需要而设计的。

学位

仿真训练装置管式加热炉集散控制系统集敖系统组态内模控制预测函数控制培训技术人员操作工人培训

天然气输配控制工程开发与研究

本论文涉及的科研课题来源于延安天然气输配工程(二期),论述了其中最重要的门站控制系统工程设计过程,研究和解决了关键技术问题。文章首先介绍了天然气输配工程的工艺特点,

学位

天然气输配PLC控制系统流量计量

小波神经网络和ARMA模型在股票预测中的研究与应用

本论文在全面研究股票市场及其问题的基础上,把股票的小波神经网络预测方法与ARMA时间序列预测方法用贝叶斯组合理论相结合,构造出一个综合且准确率较高的股票组合预测模型,

学位

小波神经网络贝叶斯组合理论股票市场股票预测

基于PCA及其扩展方法的过程监控技术研究

工业生产的过程监控一直是流程工业系统关注的主要问题之一。它通过监测生产过程的运行状态,及时检测故障发生、过程干扰以及其它的异常工况,定位并诊断引发故障的原因变量,

学位

过程监控主元分析动态主元分析多尺度主元分析多尺度动态主元分析

基于ZigBee的无线表决系统的研究与实现

本文从无线通信技术在表决系统中的应用出发，学习了一种新的无线通信技术标准——ZigBee。ZigBee技术是在IEEE802.15.4标准上提出的，IEEE802.15.4规范是一种经济、高效、低数据

学位

无线表决系统无线通信技术802.15.4标准

LF精炼炉物流系统设计与实现

目前,国内很多钢铁企业为了提高生产效率,对其企业综合自动化信息系统提出了更高的要求。然而,不少企业的过程自动化系统并不完善,制约了其企业综合自动化信息系统的建设,受

学位

基于不确定知识的强化学习及其应用研究

其他学术论文