论文部分内容阅读
图像压缩技术是计算机视觉领域一项重要技术,通过减少图像当中的冗余信息,可以有效缓解传输压力和节省存储资源。由于信息时代带来的数据增长,海量的图像数据和短缺的传输资源之间的矛盾日益突出,因此开发一种高效的图像压缩技术,用于缓解图像信息带来的压力显得尤为重要。传统的图像压缩算法依赖人工设计的编码器/解码器框架,采用固定变换的方式减少图像中的冗余信息,但在极低比特率下会出现图像模糊、伪影等影响图像质量的现象。生成式对抗网络是近年来最具有发展潜力的深度学习算法,运用生成器和鉴别器互相对抗训练,产生相当好的效果。因此本文采用深度学习的方法,运用生成式对抗网络为基本框架搭建图像压缩的编/解码器结构,实现对图像不同程度的压缩,尽可能地为图像重要区域保留更多细节部分,提升重建图像的视觉质量,同时提出适用于语义推理的图像压缩方法。本文的主要内容和创新性工作如下:(1)针对高分辨图像在低码率下提取图像典型特征能力较弱以及对于图像不同区域比特分配不足出现图像失真情况,导致重建的图像质量效果较差的问题,提出了一种基于多尺度和注意力机制的GAN网络图像压缩方法,将多尺度特征分解的思想运用到编码器和鉴别器设计中,在编码器聚合多尺度特征信息时,设置不同的权重进行加权求和,提高了网络提取特征的能力,并且加入CBAM注意力机制,使网络关注重点区域的特征,捕捉图像的纹理信息。同时将生成器和多尺度鉴别器进行对抗损失训练,把图像从低分辨率到高分辨率循序重建,从而实现在极限码率下对高分辨图像的压缩与重建,生成满足人眼主观感受的高质量图像。网络训练采用Adam优化器以端到端的方式对网络参数进行优化更新,有效地避免了网络训练中出现梯度消失的情况,对于图像的重建和恢复起到一定的作用。实验结果表明,该方法的压缩重建性能较好,低比特率下的重建质量更受用户青睐,图像内容清晰度较高,满足人的主观视觉体验,PSNR和MS-SSIM两项指标明显优于JPEG2000和一些基于CNN的方法。(2)针对现有的图像压缩算法对于语义任务适用性较差的问题,提出一种基于多尺度GAN网络的多任务语义压缩方法,利用具有感知质量的生成对抗网络对图像进行压缩重构,将量化器的潜在表示并行输入到生成器和分类器网络中,一方面利用高质量生成器对图像进行解码重建图像,与多尺度鉴别器进行对抗训练生成高质量的图像;另一方面利用分类器对图像进行语义分类任务。整个方法中加入多任务学习思想,通过编码器参数共享对网络进行优化,联合共享有用信息来提高语义判别和图像压缩的效果,提出了均方误差损失和感知损失的组合损失函数,用来保持像素级别和语义级别的逼真度,通过端到端的方式学习实现协同图像压缩和分类任务,不仅可以使用较少参数量实现图像处理任务,而且可以重建出高质量的图像,根据图像的语义信息对图像进行分类。实验结果表明,该方法重建图像的效果质量更好,使用ImageNet数据集在0.1450bpp下图像压缩指标PSNR和SSIM可以达到26.49dB和89.4%,图像分类准确率可以达到74.5%,从而证明算法的有效性。