论文部分内容阅读
语义分割(Semantic Segmentation)是指为图像中的每个像素分配一个类别标签,使之不但能分割出区域,还能对区域进行内容标注。随着越来越多的视觉应用如自动驾驶、医学影像分析、视频监控、增强现实等急需精确且高效的分割技术,以精度和细度著称的图像语义分割在计算机视觉和机器学习领域受到越来越多的关注,成为该领域的研究热点之一。语义分割通常在进行像素级预测的同时将对象分类和目标定位结合在一起解决,但如何在高层抽象的对象分类和低层精确的目标定位这两个相互约束的问题之间取得平衡是语义分割所面对的难点。本文旨在通过注意力机制改进层级特征融合以获得更好的图像语义特征,并构建对象边界检测模型用于细化分割出的对象边界。其主要工作及创新点体现在:(1)针对基于全卷积网络的语义分割方法在处理外观复杂对象时容易出现局部区域感知错误的类内语义不一致问题,提出一种注意力机制指导特征融合的语义分割方法。该方法利用具有最强语义一致性约束的高层语义信息自顶向下地逐层融合表征不同尺度上下文的层级特征,由注意力模块提供融合指导,约束融合特征的语义一致性,从而获得最佳预测。在PASCAL VOC 2012和Cityscapes数据集上的实验结果表明,改进后的模型能够捕获丰富的上下文信息,得到类内语义更加一致的图像特征,较同类方法具有明显的优势。(2)针对基于全卷积网络的语义分割方法易引起分割出的对象边界模糊问题,提出一种基于对象边界检测的语义分割方法。该方法利用对现有数据集转换得到的含有对象边界标签的新数据集训练检测模型,以获得关于对象边界的空间信息。通过掩码模块引导,将分割模型提取的语义特征与检测模型提取的空间特征相结合,利用对象的边界信息细化语义分割的结果。在PASCAL VOC 2012和Cityscapes数据集上的实验结果表明,提出的方法能够得到边界轮廓更加清晰细致的对象分割结果。(3)针对服装解析这一特定应用,在以上研究的基础上,提出一种套装编码器预测和约束组合语义的服装解析方法,并设计了相应的套装搭配系统。借助全卷积网络末端引出的套装编码器分支预测人物的穿搭组合偏好,该服装解析方法能够过滤掉图像中不确定的标签,并利用全连接条件随机场改善分割质量,作为纠正预测的后处理步骤。在Fashionista和CFPD数据集上的实验结果证实了该方法的可行性。