论文部分内容阅读
语义分割是计算机视觉领域的核心问题之一,它是指机器自动识别图像,对图像进行像素级别的分类,为物体提供类别、位置和形态信息,在自动驾驶、遥感图像处理、医疗诊断和时尚搭配等领域有较好的应用前景,因此语义分割具有十分重要的研究价值。
本文对基于卷积神经网络的语义分割方法进行总结分析,对以下问题展开研究:第一,语义分割中存在较难训练的区域影响分割精度;第二,U型架构通过前后层特征融合,对细节信息进行了相应的补充,但没有考虑图像的上下文信息和前后层特征的差异;第三,在语义分割任务中,精度和速度同样重要,如何在速度和精度之间获得较好的平衡是一个较为重要的问题。上述问题对于提升分割网络的性能具有重要作用,本文具体工作如下:
(1)对目前存在的困难区域影响分割精度的问题展开研究,提出了一种困难区域挖掘的训练方法。无差别的训练方法使图像中困难区域训练不充分,进而导致了误分类问题。为了让模型在训练过程中增加对困难区域的关注,本文提出了一种困难区域挖掘的训练方法,该方法通过在训练过程中自动挖掘困难区域,增加对困难区域的关注,从而提高分割精度。由于是对训练方法的改进,因此适用于各种网络架构,且不会增加网络的推断时间。实验结果表明,该方法对不同数据集和不同模型,均可以有效增加分割精度,减少误分类情况的出现。
(2)针对U型架构的不足,提出了一种新的语义分割模型MSFFNet(Multi-scale feature fusion network)。该模型在U型架构基础上,引入上下文特征聚合模块(Context Feature Aggregation Module,CFA)和注意力模块(Attention Module,AM),前者可以聚合上下文信息,后者可以增加前后层特征融合的有效性。实验结果表明,上下文特征聚合模块和注意力模块均可以有效提高分割精度。与现有的语义分割网络对比,MSFFNet可以在25FPS的情况下获得75.7%的平均交并比。
(3)综合考虑速度和精度,提出了一种快速语义分割模型Fasnet(Fast segmentation network)。Fasnet结合编码解码架构和稠密空洞空间金字塔池化模块的优点,有效地利用了多种信息。为了增加分割速度,对编码端、解码端和DenseASPP模块进行了不同程度的压缩,保证在有限的参数下,提取更多特征。Cityscapes数据集的实验结果表明,该网络可以在62.5帧每秒的速度下获得71.37%的平均交并比。速度精度对比图表明Fasnet在速度和精度上获得了较好的平衡。
本文对基于卷积神经网络的语义分割方法进行总结分析,对以下问题展开研究:第一,语义分割中存在较难训练的区域影响分割精度;第二,U型架构通过前后层特征融合,对细节信息进行了相应的补充,但没有考虑图像的上下文信息和前后层特征的差异;第三,在语义分割任务中,精度和速度同样重要,如何在速度和精度之间获得较好的平衡是一个较为重要的问题。上述问题对于提升分割网络的性能具有重要作用,本文具体工作如下:
(1)对目前存在的困难区域影响分割精度的问题展开研究,提出了一种困难区域挖掘的训练方法。无差别的训练方法使图像中困难区域训练不充分,进而导致了误分类问题。为了让模型在训练过程中增加对困难区域的关注,本文提出了一种困难区域挖掘的训练方法,该方法通过在训练过程中自动挖掘困难区域,增加对困难区域的关注,从而提高分割精度。由于是对训练方法的改进,因此适用于各种网络架构,且不会增加网络的推断时间。实验结果表明,该方法对不同数据集和不同模型,均可以有效增加分割精度,减少误分类情况的出现。
(2)针对U型架构的不足,提出了一种新的语义分割模型MSFFNet(Multi-scale feature fusion network)。该模型在U型架构基础上,引入上下文特征聚合模块(Context Feature Aggregation Module,CFA)和注意力模块(Attention Module,AM),前者可以聚合上下文信息,后者可以增加前后层特征融合的有效性。实验结果表明,上下文特征聚合模块和注意力模块均可以有效提高分割精度。与现有的语义分割网络对比,MSFFNet可以在25FPS的情况下获得75.7%的平均交并比。
(3)综合考虑速度和精度,提出了一种快速语义分割模型Fasnet(Fast segmentation network)。Fasnet结合编码解码架构和稠密空洞空间金字塔池化模块的优点,有效地利用了多种信息。为了增加分割速度,对编码端、解码端和DenseASPP模块进行了不同程度的压缩,保证在有限的参数下,提取更多特征。Cityscapes数据集的实验结果表明,该网络可以在62.5帧每秒的速度下获得71.37%的平均交并比。速度精度对比图表明Fasnet在速度和精度上获得了较好的平衡。