论文部分内容阅读
随着人工智能,3D应用的发展,对于场景信息的获取也越来越重要,深度作为场景中的最重要的信息之一,如何获得深度信息一直是计算机视觉领域的一个重要问题。在深度采集设备不能大规模普及的情况下,针对已经存有的大量的彩色图,依据这些单目图像来估计深度就是一个具有挑战性的任务。对于单目图像的深度估计问题,从场景分类出发,本文分别基于室外图像和室内图像进行了研究工作。基于室外图像,本文借鉴由粗到细的深度估计过程,设计了粗尺度结构化随机森林结合细尺度的结构化随机森林的结构,通过粗尺度的结构化森林来估计全局的粗糙的深度信息,将预测结果上采样之后送入到细尺度的结构化森林中,从而进行局部的精细的深度估计。针对室内图像丰富的场景结构,以及深度线索信息,本文提出了一个多尺度特征融合的深度学习网络,分为特征提取网络和特征融合网络。特征提取网络基于全卷积神经网络提取多层次的全局,局部特征,并减少了网络参数。特征融合网络则利用跳转结构,逐步融合特征,将特征提取网络的浅层局部特征和高层全局特征结合起来,并采用快速反卷积将特征图上采样到原图大小来进行单目深度估计。总体而言,基于室外图像,本文提出了一个由粗到细的基于结构化随机森林的深度估计框架,设计了深度标签离散化的方法以及基于深度块估计深度的方法。基于室内图像,本文提出了一个多尺度特征融合的深度学习网络,以残差网络为基础,修改了残差网络的全连接层,将其转化为卷积层,减少了网络参数,增加了以反卷积层为基础的特征融合网络,提出了跳转结构将两个网络的特征相互融合,并利用快速反卷积方式加快了训练速度。本文的方法在室内室外数据集上均取得了较好的结果。