论文部分内容阅读
图像语义分割(Image Semantic Segmentation)是对图像中的所有像素按其表示的语义内容进行像素级别的分类,在遥感图像解译、自动驾驶、医疗影像分析以及无人机导航等应用场景起着重要作用。随着自动驾驶技术的飞速发展和对图像理解要求的提高,以往的图像识别技术由于只能绘制某些确定目标的边框,已经无法满足当前的精细化需求,图像语义分割成为了自动驾驶任务中图像识别与理解的重要方法。由于街道场景图像具有对象尺度变化大,存在遮挡且人工标注困难的特点,图像语义分割的难度较大。本文基于空间金字塔池化方法提取图像的多尺度上下文信息,重点结合街道场景对图像语义分割问题进行研究,主要研究内容如下:(1)针对基于空间金字塔池化方法进行街道场景图像语义分割时,在融合多尺度特征时忽略了边界信息,对存在遮挡或目标像素少的类别分类不准确的问题,本文提出了一种融入细节信息的剑状空间金字塔池化方法,并进一步提出编码器—解码器结构模型。该模型通过基于Atrous卷积及平均池化操作的剑状空间金字塔池化方法提取融入低层特征的多尺度上下文信息,其中低层特征保留了图像的边界信息,并通过解码器中的跳跃连接操作实现了对目标边界的逐步还原。在公共数据集Cityscapes上的实验结果表明,本方法在遮挡、目标像素少等情况下,仍能取得较好的语义分割结果。(2)针对现有利用生成图像进行训练的方法中分割网络模型的性能依赖于图像生成网络,而图像生成网络在训练分割模型时参数会固定无法进行有效的更新,且在对不同类别进行分割时出现类别间准确率不均衡的问题,本文提出了一种结合最大平方损失的双向域自适应学习方法。该方法通过图像生成网络和分割自适应网络之间的交替学习,使得图像生成网络在训练分割网络模型时也能够进行有效的更新,进一步提升图像生成和图像分割的性能,同时采用最大平方损失有效缓解了当前域自适应学习中的类不均衡问题。在合成数据集GTA5和真实场景数据集Cityscapes上的实验结果表明,本方法可以改善当前双向域自适应学习方法存在的类不均衡问题,表现出良好的图像分割性能。(3)基于上述研究成果,设计了一个基于语义分割模型的街道场景识别应用系统。系统主要包括模型训练和街道场景图像识别两个模块。对于待识别的图像,利用语义分割方法对图像进行分割,并对分割后的图像添加上对应的类别标签,最终输出识别结果。对该系统的实际操作结果表明,系统能进行有效的街道场景识别。