基于深度强化学习的未知环境下机器人路径规划的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhangdong1231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
服务机器人在完成各种任务时经常需要进出房间,这就需要机器人能够在室内环境下,自主获取环境信息,然后进行路径规划和导航,导航对于自主移动机器人来说非常重要。在动态未知环境中,由于移动机器人处于局部环境中,有时并不能准确得到目标位罝,因此移动机器人只能根据反馈得到的局部信息来规划自己的路径。如何有效的利用已知信息就成了动态未知环境中路径规划的关键问题。传统的动态环境下的路径规划方法都需要依赖地图信息,在已知地图信息的前提下进行路径规划,无法在未知的环境中通过视觉伺服进行路径规划。本文通过深度强化学习的方式,在机器人无地图信息的情况下进行路径规划。首先,建立差速的移动机器人系统,为了验证模型的准确性与可靠性,在MATLAB中进行了多种运动学的仿真,包括点镇定、跟踪双曲线、跟踪圆周曲线等的测试,证明了运动学模型的可靠性。基于ROS建立了移动机器人的外形与运动学模型,在其上添加了Kinect视觉传感器与碰撞、速度里程计等传感器,并将各个传感器采集到的数据以消息的方式发布到了相应的主题上,通过订阅这些主题可以方便的获取机器人实时采集的环境信息,为之后进行路径规划奠定基础。然后,建立了深度强化学习的模型。本文使用结合了Q-学习与梯度策略算法的A3C算法进行机器人运动决策的训练,针对本文的差速移动机器人的特点,通过Kinect的深度图像作为输入,将机器人速度与角速度的值作为输出,建立了端到端的训练模型。并在Gazebo搭建的环境中进行了实验,验证了算法的有效性。最后,针对强化学习训练时间长的缺点,提出一种基于最小景深信息的训练方式,优化了状态空间的构建过程,以此来提高学习的训练效率,并与普通训练方式进行了对比验证,在相同的训练时间下,本文提出的训练方法学习效率更高。并进行了未知环境与动态环境避障的验证实验。在真实的环境中进行实验,验证了算法对未知环境路径规划的有效性,并实现了未知环境的探索与地图的构建。
其他文献
本文以建立网络化制造的对策论模型为背景,研究了几种类型的多人合作对策,应用对策论讨论了网络化制造的合作共赢与利益分配机制,指出在网络化制造中必须遵循合作共赢原则以达到
本文通过对荣华二采区10
期刊
上肢残疾患者中,部分手残疾患者占有很大的比例,针对这部分人群的半掌手的研究刚刚起步。目前还缺少普适于这一类人群的功能性假肢。本文提出了一种基于FSR(Force Sensitive Resistor)压力传感器的高集成度的多自由度半掌手系统,由采集到肌力信号完成模式识别算法及控制实验。本文首先介绍了半掌假手控制的常见信号源,介绍比较了机械驱动信号、脑电信号、肌电信号以及FSR压力信号在假手控制中的
摘 要:自改革开放至今,对于我国城市建设来说,也已经进入到快速发展的时代,对于一系列的激烈社会经济变革的情况,城市的经济体制转轨速度和城市化进程的速度也在不断加快,给传统城市规划管理工作的开展带来一定的挑战。本文就针对城市规划管理的重要性进行有效分析,并对当前城市规划管理的现象进行研究,最后结合城市规划管理相应控制标准来制定完善的管理策略,为促进我国城市未来稳定发展奠定坚实基础。  关键词:城市规
以蒙化铁路长湖特大桥64+96+96+64M连续梁悬臂施工为工程背景,阐述了水中连续梁悬臂施工线形监测的实施技术方法,并通过建立较为详细的跟踪、预测和调整机制,确保主梁合拢精
现代制造业正朝向网络化、全球化、智能化等方向发展,因而以网络化制造手段来改造制造企业,使企业能快速响应市场,尽可能的满足个性化市场的需求,是现代制造业必须面临的课题。网
随着工业的发展,机械密封得到广泛应用,然而泵、反应釜和压缩机等轴端机械密封在高速、高温和高压状态下的过热、泄漏超标、摩擦磨损加剧,以及低速状态下非接触式密封端面开启力不足等问题是目前面临的主要难题。针对上述问题,本文结合理论设计外驱动式中间旋转环密封,然后通过理论计算和试验对其进行研究,具体内容如下:(1)机械密封基本原理、结构介绍。重点分析了螺旋槽机械密封的基本结构及性能参数,并根据纳维—斯托克
继河南省啦啦操锦标赛获奖后,河南省郑州市二七区尖岗小学于近日在全国啦啦操联赛(许昌站)中再次斩获佳绩,获得公开儿童乙组街舞规定动作第三名和公开儿童乙组技巧0级规定动
期刊