论文部分内容阅读
深度图像分割技术在多领域承担着重要的作用,比如图像修复、图像理解、内容检索、视频分割等研究领域,并且目前已经取得了不错的成绩。传统的自动图像分割技术,对于目标对象的分割效果不是很理想,有边界分割模糊、遮挡错误分割等问题,无法得到满意的分割结果,而交互式图像分割技术给了用户很大的操作空间、想象力和自由度,弥补自动图像分割技术的不足,目前,交互式图像分割成为了新兴的研究领域,通过方便交互的分割工具可以简化标注的流程。基于点击形式的交互式图像分割以主流深度学习网络为主要架构,与普通的图像分割算法的不同在于:网络的输入从单一的RGB图像到RGB图像和交互数据融合输入;用户是不断输入点击,直到得到满意结果。在目前的交互式图像分割算法中,都将所有的点击一视同仁,生成前景距离概率图和背景距离概率图,而通常情况下,用户的第一次点击常常点击在图像的中心区域,而其他的背景点击或者前景点击主要是为了修复和擦除错误预测的区域,因此不同的点击交互信息所承担的角色是不同的。本文提出了一种DCN(Differentiated Click Network,差异化点击网络)模型将用户交互数据进行分离提取特征单元,增强图像不同区域的信息权重,从而提高模型的分割精度。为了尽量减少该模型预测的计算时延,DCN网络基于深度可分离卷积进行构建,并且基于空洞空间金字塔结构提取多尺度的特征。DCN模型的有效性在ResNet34、ResNet50和MobileNet网络架构上得到了充分的验证,在GrabCut、SBD和Berkeley公开数据集和wx、wxsod和aliwenyu数据集上取得了不错的效果。DCN模型牺牲了一定的计算时延,提高了模型的分割精度,但是交互式图像分割的落地应用场景为许多的移动设备和嵌入式设备,计算时延仍然是需要重点关注的指标,为了提高DCN模型的计算速度,本文提出了 LRR(Logistic Regression Refinement,逻辑回归修正)模型,仅仅改变网络的最后几层激活层的参数就会对网络输出产生巨大的影响已经被证实,因此,本文通过逻辑回归模型参数对交互式图像分割的模型的中间输出进行修正,来代替修正初始输入的高斯概率图,从而实现了预测加速。实验验证了 LRR模型的有效性,并且讨论了最佳的LRR模型超参,在wx、wxsod和aliwenyu数据集中已经在ResNet50模型上达到了 200-300毫秒的计算速度,已经实现了落地的需要,而在GrabCut数据集中通过MobileNet网络实现了 270毫秒的计算速度,相比于DCN模型提高了 47.8%的计算速度。因此,LRR模型不论是在计算时间上还是在计算精度上都有着良好的效果。