基于深度强化学习的水下机器人循管控制策略研究

来源 :大连海洋大学 | 被引量 : 0次 | 上传用户：xxcoldrain

【摘要】

：

随着人口的不断增多,资源开采也日益增多,石油、天然气的海底管道铺设也在增加,因此,海洋环境保护受到重视,为了避免随之而来海洋生物环境破坏问题,水下铺设的管道需要定期维

【作者】

：

刘亚楠

【出处】

：

大连海洋大学

【发表日期】

：

2020年01期

【关键词】

：

循管任务深度强化学习近端优化策略算法自主水下机器人

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人口的不断增多,资源开采也日益增多,石油、天然气的海底管道铺设也在增加,因此,海洋环境保护受到重视,为了避免随之而来海洋生物环境破坏问题,水下铺设的管道需要定期维护。水下工程设备检测及维护,对于传统的人工来说存在安全隐患,所以对于水下机器人进行海底管道检测方法有着迫切的需求,然而有缆水下机器人实施中存在人工控制的局限性。因此国外学者开展了自主控制方法研究,但是大多需要构建动力学模型,在实际操作中精确的动力学模型是很难获取的。另一方面,许多最新研究成果显示强化学习无需构建运动学模型即可实现机器人的自主运动控制,但鲜有在水下机器人循管方面应用,为此本课题开展基于深度强化学习的水下机器人循管控制策略研究。具体的工作如下:首先,构建出适应于本循管任务课题的虚拟管道实验平台。由于水下机器人硬件十分昂贵,海洋环境条件恶劣,使用真实机器人试验是一项危险性大、成本高的工作。因此本文通过使用OpenAI Gym、机器人操作系统(Robot Operating System,ROS)和UWSim的工具模块进行整合,实现一款面向海底管道检测的三维虚拟仿真平台,该平台可以避免实施方案时的危险问题,也可以降低实验成本和耗时,更可以解决强化学习所需的样本数量问题并且也提升了样本获取的效率,同为本文提供管道训练所需的训练场景。其次,提出了基于深度强化学习像素到动作映射的水下管道端到端循管策略。大多数基于模型的方法无法解决在同一水平面上自主水下机器人(Autonomous Underwater Vehicle,AUV)基于图像的管道循管问题。为此,本文首先在不确定的转移概率下,将AUV作为连续状态、连续动作的马尔可夫决策过程(Markov decision process,MDP)制定管道问题。管道循管策略被建模为从摄像机产生的图像到AUV的速度的映射,并用深度神经网络来表示。然后利用近端策略优化(Proximal Policy Optimization,PPO)方法对神经网络进行训练,得到一个像素到动作的映射策略。最后,本文构造了几个实验来验证所提出的方法的有效性和学习策略的泛化能力。仿真结果表明,所学习的策略能够控制AUV在管道上的运行,对于新的和未知的管道几何结构具有很强的泛化能力。最后,提出了基于改造卷积神经网络结构的循管任务控制策略。因为本文主要依靠水下机器人底部搭载的摄像头所获取的图像进行循管任务,在循管过程中摄像机所获取到的图像,可能会受到水下光及深度等因素的干扰,造成循管策略不够优质,而图像处理的主要部分则为卷积神经网络,所以影响激励值和循管长度的原因可能与卷积神经网络的结构有关。因此,考虑从卷积神经网络的结构入手,通过加入二值化处理方法去除不必要的干扰因素,另外,因为本课题的研究内容仅是图像到动作的映射关系,并且在实验过程中发现小规模的神经网络结构训练效果更好,通过改进策略,进而实现对循管任务策略的优化。

其他文献

基于中轴变换的图形构造方法研究

图形构造技术是一种重要的图形设计手段,其不仅仅在计算机辅助设计和计算机辅助工程中有重要的应用,同时在其它很多工程领域中也有着不可替代的作用。当前主要的图形构造技术

学位

图形构造中轴变换参数化拓扑结构映射

技术进步对中国工业行业价值链长度的影响研究

技术进步对国际贸易分工模式具有基础性推动作用,随着技术水平的发展,国际贸易模式从产业间分工、产业内分工发展到产品内分工。当产品的不同生产工序为追求最低生产成本被配

学位

技术进步全球价值链世界投入产出表系统GMM

移动边缘计算网络的计算比特与安全计算能效优化

移动边缘计算技术为用户提供低时延高计算性能的计算服务提供了重要途径。然而,其面临两大技术挑战。首先,能量有限的移动用户难于长时间享受移动边缘计算的服务。其次,移动

学位

移动边缘计算资源分配无线能量传输非正交多址物理层安全

不同官能团修饰的碳纳米管与阿特拉津对水稻幼苗生长的影响

纳米材料的广泛应用必然带来其进入环境后的风险问题,是目前研究热点之一。有研究表明碳纳米材料会影响植物生长,还有研究表明碳纳米材料与常见的环境有机污染物的吸附作用很

学位

官能化多壁碳纳米管阿特拉津水稻幼苗环境风险

多重信号放大的电化学生物传感器检测人体血清tau-441蛋白研究

目的Tau蛋白是一类微管相关蛋白,可促进微管蛋白聚合,参与神经细胞骨架的构成。Tau蛋白有六种异构体,它们结构上的差异主要在于氨基末端区域（N末端）与羧基末端区域（C末端）的不同

学位

Tau-441蛋白电化学生物传感器多壁碳纳米管-还原氧化石墨烯-壳聚糖金纳米粒子血清样本

蒙古语长音频语音文本自动对齐方法研究

基于深度学习的语音识别系统已经被广泛应用于各个领域,而声学模型都是以大规模的语音库资源为基础进行训练的。然而,目前蒙古语语音库资源相对较少,无法满足蒙古语大词汇量

学位

语音文本对齐音频切分语言模型音素对齐语音识别

面向自动驾驶场景的交通标志检测技术研究

环境感知为自动驾驶技术提供了重要的数据基础,其涉及计算机视觉,自动控制等技术的综合运用。自动驾驶设备对道路环境的感知能力和做出控制决策的能力依赖于对道路元素的精准

学位

自动驾驶交通标志检测卷积神经网络

酒西盆地疏勒河组磁性地层年代及中新世祁连山西段构造隆升

青藏高原隆升对东亚乃至全球气候环境产生了重大影响,但对于青藏高原隆升过程及其机制的认识,目前还存在着争论。位于高原北部边界的北祁连山地区是认识高原隆升过程的理想地

学位

磁性地层学红柳峡新近系疏勒河组北祁连山西段

基于六轮小车的虚拟智能管家系统及相关SLAM技术研究

近年来,不管是Alpha Go先后战胜中日围棋世界冠军,还是新华社联合搜狗发布的全球首个“AI合成主播”顺利完成了 100秒的新闻播报,或是百度阿波罗无人车高调亮相央视春晚,无不

学位

智能小车激光雷达SLAM计算机视觉特征点匹配

遗留代码可分布式并行性分析及优化研究

云计算作为一种新兴的商业计算模型,拥有并行性、可扩展性及高可靠性等诸多优势。在此背景下,将遗留系统移植到云平台已经成为一种趋势。在移植过程中,为了充分利用云计算的

学位

云移植遗留代码可分布式并行性源文件重组迭代分级

基于深度强化学习的水下机器人循管控制策略研究

其他学术论文