论文部分内容阅读
随着人口的不断增多,资源开采也日益增多,石油、天然气的海底管道铺设也在增加,因此,海洋环境保护受到重视,为了避免随之而来海洋生物环境破坏问题,水下铺设的管道需要定期维护。水下工程设备检测及维护,对于传统的人工来说存在安全隐患,所以对于水下机器人进行海底管道检测方法有着迫切的需求,然而有缆水下机器人实施中存在人工控制的局限性。因此国外学者开展了自主控制方法研究,但是大多需要构建动力学模型,在实际操作中精确的动力学模型是很难获取的。另一方面,许多最新研究成果显示强化学习无需构建运动学模型即可实现机器人的自主运动控制,但鲜有在水下机器人循管方面应用,为此本课题开展基于深度强化学习的水下机器人循管控制策略研究。具体的工作如下:首先,构建出适应于本循管任务课题的虚拟管道实验平台。由于水下机器人硬件十分昂贵,海洋环境条件恶劣,使用真实机器人试验是一项危险性大、成本高的工作。因此本文通过使用OpenAI Gym、机器人操作系统(Robot Operating System,ROS)和UWSim的工具模块进行整合,实现一款面向海底管道检测的三维虚拟仿真平台,该平台可以避免实施方案时的危险问题,也可以降低实验成本和耗时,更可以解决强化学习所需的样本数量问题并且也提升了样本获取的效率,同为本文提供管道训练所需的训练场景。其次,提出了基于深度强化学习像素到动作映射的水下管道端到端循管策略。大多数基于模型的方法无法解决在同一水平面上自主水下机器人(Autonomous Underwater Vehicle,AUV)基于图像的管道循管问题。为此,本文首先在不确定的转移概率下,将AUV作为连续状态、连续动作的马尔可夫决策过程(Markov decision process,MDP)制定管道问题。管道循管策略被建模为从摄像机产生的图像到AUV的速度的映射,并用深度神经网络来表示。然后利用近端策略优化(Proximal Policy Optimization,PPO)方法对神经网络进行训练,得到一个像素到动作的映射策略。最后,本文构造了几个实验来验证所提出的方法的有效性和学习策略的泛化能力。仿真结果表明,所学习的策略能够控制AUV在管道上的运行,对于新的和未知的管道几何结构具有很强的泛化能力。最后,提出了基于改造卷积神经网络结构的循管任务控制策略。因为本文主要依靠水下机器人底部搭载的摄像头所获取的图像进行循管任务,在循管过程中摄像机所获取到的图像,可能会受到水下光及深度等因素的干扰,造成循管策略不够优质,而图像处理的主要部分则为卷积神经网络,所以影响激励值和循管长度的原因可能与卷积神经网络的结构有关。因此,考虑从卷积神经网络的结构入手,通过加入二值化处理方法去除不必要的干扰因素,另外,因为本课题的研究内容仅是图像到动作的映射关系,并且在实验过程中发现小规模的神经网络结构训练效果更好,通过改进策略,进而实现对循管任务策略的优化。