论文部分内容阅读
双目立体匹配在计算机视觉领域中是一个基础且具有挑战性的任务,该任务在自动驾驶、稠密重建以及其他深度相关的场景中都具有广泛的应用。语义上下文信息可以为立体匹配任务提供区域性的支持,立体匹配中同一语义是指深度相似,通过聚合与当前像素点深度相似的特征信息可以增强当前特征点的可区分度,高区分度的特征可以有效地减少误匹配的几率,这对于实现在诸如遮挡、弱纹理等病态区域的精确匹配是至关重要的。同时设计合适的立体匹配测度构造代价立方体(Costvolume)以充分利用网络学习的丰富的特征信息也是一个重点研究方向。传统方法多采用一些手工制定的算法去获得语义上下文信息,这类方法通常只适用于某些特定的场景,因此具有严重的泛化局限性。卷积神经网络的出现大大地提升了学习特征表示的能力,同时涌现出了很多基于多尺度特征聚合来捕获语义上下文信息的方法,这些方法相比于传统方法具有更好的性能,但是由于固定大小和形状的卷积和池化操作仍然限制了网络进行几何转换的能力,导致获取的上下文信息不够精准和全面。在本文中,我们首先提出了一种基于可变形的自注意力双目立体匹配网络来捕获精确的全局上下文信息。自注意力模块通过自适应地聚合全局范围内的深度关联特征来获取上下文信息以增强空间维的特征表示,我们进一步对自注意力机制处理后的特征进行可变形卷积操作以提升网络处理复杂形变的能力,这有助于精细化边界区域像素的辨别性表示进而缓解边界视差模糊和耦合问题。自注意力机制模型虽然精度高但是会消耗大量的计算资源,针对这个弊端本文提出了多种自注意力机制的变种模型,在保证一定的匹配精度基础上尽可能地优化时间效率。在获取了丰富的特征信息后,需要通过计算待匹配特征点对之间的匹配代价去构造Cost volume,对Cost volume进行进一步处理可获得最终视差估计结果。传统方法中基于互相关、互信息以及Census变换等计算匹配代价的方式取得了很好的效果但是直接将这些方法迁移到神经网络难以达到理想的效果。当前基于神经网络的双目立体匹配的算法大多采用一种可学习的匹配测度来构造Cost volume,之后再通过3D卷积对其进行正则化来拟合传统方法中的代价聚合操作。本文借鉴这种思想提出了多种基于学习的匹配测度改善了当前算法的弊端。通过组合不同的可变形注意力机制模块和基于学习的匹配测度模块可以组成不同的网络架构进而满足不同的应用场景需求。在SceneFlow和KITTI测试集上的实验结果表明,本文提出的精度最高的基于可变形注意力机制的双目立体匹配网络在两个数据集上相对于基准模型都有明显的精度提升。同时该模型在精度指标上超越了近年来的相似研究方向上的多个网络架构。