论文部分内容阅读
森林资源信息的采集是森林资源清查、林业三维可视化、智能林业机器人感知作业环境和识别作业目标的基础,也是一项复杂,繁重的任务。通过视觉传感器对森林场景进行三维重建,在此基础上进行森林资源信息采集和智能机器人导航、定位和作业目标识别是最具前景的方法,而森林场景的三维重建是关键和基础。因此,本文以单目视觉为线索对图像的深度进行预测,并应用到森林场景的三维重建中,从而进一步提升林业机器人的视觉信息处理能力。本文针对智能林业机器人获取图像方式的不同,从三个角度来实现单目图像的深度估计,进而恢复森林场景的三维信息。本文研究的具体工作可归纳如下:1.当训练集仅包含RGB图像和对应的深度图像时,提出了一种带有密集连接型神经网络的编码-解码结构模型,直接从单幅RGB图像中恢复深度信息,而无需任何深度传感器的介入。编码器主要通过一系列的卷积操作从原始数据中提取最具代表性的特征,并降低空间输入特征的分辨率。解码器部分主要由一些上采样结构组成,逐步提高特征图的分辨率。本文的深度预测模型是从零开始训练,没有任何特殊的微调过程,并使用了新的优化函数来自适应调整学习率。实验结果表明,在NYU Depth V2数据集中的绝对相对误差(Abs Rel)与最优的方法相比降低了7.69%,均方误差(RMSE)降低了8.81%;在Make3D数据集中的Abs Rel值与最优的方法相比降低了7.55%,RMSE值降低了6.26%。2.当训练集仅包含校准后的左-右图像时,依据双目视觉理论和对极几何原理提出了一种基于通道注意力机制的新型卷积神经网络结构,该结构基于一些通道注意力模块来设计神经网络,将深度预测看作视差图的回归问题。并使用校准后的立体图像对来训练深度估计模型。该方法在训练过程中无需任何深度数据作为监督信号。本文还探索了一种新的上采样策略以提高输出特征图的分辨率,并引入了一种新的动态优化策略以提高模型的训练速度和预测精度。在KITTI官方划分的数据集上本文的方法在8个评价指标上取得了最优的结果;在Eigen划分的数据集上本文在5个指标上取得了最优的结果,在2个指标上取得了次优的结果;在Cityscapes数据集上本文在8个指标上取得了最优的结果。3.当训练集仅包含单目的视频序列时,依据运动结构恢复的基本原理设计了一种基于单目图像深度估计的无监督学习框架,并且仅使用相邻视频帧作为监督信号,以无监督学习方式来训练神经网络。本文的方法还预测了两个置信掩码以解决遮挡所造成的误差。最后我们利用最大尺度和最小深度损失代替多尺度和平均损失来提高模型的估计精度。实验结果表明,在KITTI数据集上的平方相对误差(Sq Rel)与最优的方法相比降低了4.86%。4.开发了基于单目图像的森林场景三维重建系统并对活立木的胸径进行测量。在三种不同季节的森林环境中,通过加载本文第四章提出的无监督深度估计模型对森林场景进行三维重建,实现活立木的胸径测量。试验结果表明本文模型的平均误差为2.72cm,具有一定的适用性。