论文部分内容阅读
图像语义分割是图像理解的基础,其基本思想是以像素为单位,将图像中所包含的各类物体逐一进行分类,并把同属一类别的像素标记为相同的颜色。图像语义分割的出现,可以帮助计算机更好的理解图像中所表达的内容,该技术广泛应用于真三维显示、无人驾驶以及辅助医疗等领域。目前,基于深度学习的图像语义分割方法发展迅速,但其仍存在着诸多挑战,比如待分割的场景图像极易受不同光照强度以及类别多样性的影响,而现有方法对于图像中几何特征不明显以及具有复杂纹理的物体类别,在分割中仍存在困难。具体而言,在场景分割任务中,由于图像中不同物体间的像素值差异过大或过小,容易造成过分割、欠分割现象。因此,针对上述问题,本文对图像语义分割方法进行了深入的研究,提出了两种新的图像语义分割网络。(1)基于多尺度卷积神经网络的图像语义分割方法通常,现有图像语义分割模型对于纹理简单且边界明显的物体分割表现较好。但由于实际场景中图像常受到光照强度的影响,易导致图像中物体的纹理特征和颜色特征缺失,从而造成类别混淆,产生过分割、欠分割现象,直接影响语义分割的结果。本文采用多尺度卷积神经网络,研究面向所受光照不均匀图像的语义分割方法。在空间金字塔池化模块的基础上,提出了基于多尺度上下文信息的金字塔池化模块,在不同尺度之间引入上下文信息,使金字塔中的每一个分支都包含有上一个分支的特征信息,同时增大感受野,以获取包含更多内容的高级语义信息,可有效提高图像分割的精度。为验证该方法的有效性,文中使用PASCAL VOC 2012公开数据集与其他主流方法进行了对比。(2)基于多尺度残差金字塔池化和全局注意力机制的图像语义分割方法在图像的分割过程中,由于每个图像中所包含的物体类别数量较多,且图像环境较为复杂,因此,对于图像中几何结构不突出的物体分割难度较大。比如在整幅图像中的远景物体,其离天空区域较近,几何结构较小,在分割过程中容易被错分。类似地,如果在整幅图像中两个相邻物体类别的几何结构十分相似,且像素值差异也较小,则易造成不同程度的过分割和欠分割现象。针对上述问题,本文利用深度卷积神经网络,研究基于多尺度残差金字塔池化和全局注意力机制的图像语义分割方法。首先,提出多尺度残差空间金字塔池化模块,在网络中获取到更加完备的图像高层级特征;其次,网络考虑全局信息,提出基于注意力机制的解码器模块,充分融合图像的低层级特征和高层级语义特征,从而有效捕获所输入图像的纹理特征、颜色特征和几何特征,最终得到完整的分割结果。为验证该方法的可行性,论文采用了Camvid和Cityscapes公开数据集,与其他方法进行了对比实验。