论文部分内容阅读
近几年来,得益于大数据的发展和硬件计算能力的提升,深度学习在人工智能领域得到迅速的发展,成为人工智能领域中的热点研究问题之一。计算机视觉作为人工智能中的一个重要研究分支,也开始使用深度学习方法,并取得许多卓越的成绩。深度学习在图像识别、目标检测、图像检索、图像内容分析以及目标跟踪等任务上取得关键性的突破,使机器视觉类应用程序开始融入到人们的生活中。因为工业界对于计算机视觉任务精度的高要求,所以基于深度学习的视觉任务依然是比较活跃和热门的研究方向。图像语义分割是计算机视觉领域中的一个重点研究问题,也是研究其他计算机视觉任务的前提。图像语义分割算法的优劣与分割精度的高低会直接影响到后续算法性能,因此研究语义分割算法具有非常重大的意义。随着深度学习逐渐渗透到各个研究领域,基于深度学习的图像语义分割算法成为热点研究方向,因此,对图像语义分割算法的研究进入到全新的发展阶段。传统的图像分割算法主要依据图像本身的像素信息,建立图论模型对像素进行分类,对于背景杂乱的图像分割效果差,并且需要人为的干预。进入深度学习时代,深度卷积网络可以从图像中学习和提取出丰富的特征信息,使用大量的带有标注的样本集对网络进行训练,可以完成图像和图像语义标注之间端对端的映射。尽管使用深度学习的图像语义分割算法可以达到非常好的效果,但是如何提高其精度,依然是当前研究热点。本文针对如何充分利用图像中的特征信息提高图像语义分割的精度问题,对基于深度学习的图像语义分割算法进行深入研究。首先,提出一种多尺度特征提取网络。将图像缩放到三个不同的尺度,并放入单独的网络中,进行训练提取多尺度特征。这种做法可以增加原始数据集的图片数量,并能从三个维度提取图像特征。本文网络结构使用全卷积网络,通过特征融合层将网络提取到的不同尺度的特征图进行融合,通过分类层输出最终的分割结果图,最后在标准数据集上进行实验验证算法的有效性。然后,提出一种改进的编码解码网络。编码阶段从图像中提取出特征,解码阶段使用下采样时记录的位置信息,逐层上采样以得到原始图像大小的分割图。在编码过程中使用名为Inception模块的网络替换卷积层,Inception模块使用不同大小的卷积核,提取出不同感受野下的特征信息。最后在CamVid数据集上进行实验验证,图像语义分割精度有一定的提升。