论文部分内容阅读
随着多媒体技术的高速发展,全景应用逐渐吸引了人们的广泛关注。区别于传统的二维(two dimension, 2D)应用,全景应用可以为用户立体的呈现完整的场景信息,并且,给予了用户在全场景范围内任意选择视点观看的自由,实现了用户与场景的自然交互。然而,全景应用在实现全场景的观看体验的同时也给数据的存储、编码、传输带来了巨大的压力。在此背景下,研究人员根据全景应用的实际需求,设计了球形全景应用系统和对象全景应用系统。在实际应用中,两套全景系统有效的减少了全景应用中需要传输的数据量,然而,却引入了全景图像和立体视频这两种新数据格式。针对新的数据格式,设计高效的编解码方案以充分提升全景应用的性能也随之具有了重要的研究意义。因此,本文从以下三个方面对全景应用系统中全景图像和立体视频的压缩方法展开研究:球形全景系统中的全景图像编码;对象全景系统中的立体视频编码;全景系统中的低复杂度编码。
首先,为实现球形全景系统中全景图像的高效编码,本文从全景图像自身的性质入手,提出了一个基于密集连接网络的压缩自编码器,实现了全景图像端到端的编码压缩。在提出的自编码器中,本文专门设计了密集连接网络块,实现了全景图像的特征提取、特征复用、特征冗余削减等功能,充分提升了全景图像的压缩性能。并在此基础上,结合全景图像在投影中像素点具有位置独立的权重的特征,设计了带权损失函数,为每一个像素点指定了权重项,确保了压缩自编码器可以切合全景图像的投影特性,针对性的优化网络参数。最后,结合设计的压缩自编码器结构对称的特性设计了贪婪的分块训练方法,实现了压缩自编码器网络的快速训练,避免了梯度消失的问题,提升了网络的整体性能。
其次,本文研究了对象全景系统中立体视频的高效编码。考虑到在对象全景应用系统中,立体视频的编码传输不仅需要保证本身视频的质量,还应当确保在用户端可以高质量的生成任意视点的虚拟视频。因此,本文从虚拟视点视频的结构相似性度量(structural similarity index measurement, SSIM)质量入手,逐步推导出了对象全景系统中立体视频失真与虚拟视点视频失真之间的数学关系,建立起了完整的虚拟视点视频失真模型,实现了虚拟视频质量指导的立体视频内部纹理视频分量和深度视频分量间的码率分配,提升了立体视频的编码性能。随后,本文针对已分配好码率的深度视频,设计了使用虚拟视点质量衡量参考深度视频质量的方法,并在此基础上,对深度视频块进行了自适应的分类,建立了深度视频块的码率-失真(rate-distortion, R-D)模型和码率-量化(rate-quantization, R-Q)模型,实现了深度视频分量的块级码率分配。进一步的,利用建立好的模型,本文设计了立体视频的率失真优化(rate distortion optimization, RDO)算法,提升了对象全景系统中立体视频的整体编码效率。
然后,本文考虑到各类采集设备在计算资源和能源上的局限性,设计了低复杂、低能耗的编码器,以满足这些设备的实际工况。具体而言,本文结合全景系统中图像和视频数据的特征,在压缩感知理论的基础上自行设计了一套完整的的编解码方案。该方案不仅可以实现全景应用的图像和视频数据的高质量压缩编码,还具有低复杂、低能耗的特点,能够充分满足采集设备的实际需求。同时,本文为搭建好的全景系统的低复杂度编解码器专门设计了基于局部熵最小化的自适应小波分解算法和基于块平均值的运动估计算法。前者可以在无损降低图像和视频块局部信息量的同时,分离出块的高低频分量,为后续结合块特性的差异化量化和采样奠定了基础。后者则在复杂度和性能间取得了平衡,实现了快速的运动估计,降低了立体视频帧间的时域冗余。针对设计的编码器,本文还探索了量化参数(quantization parameter, QP)和测量率对编码码率和编码失真的影响,并在此基础上建立了QP和测量率的联合优化算法,实现了图像和视频的块级码率分配,让有限的码率可以依据不同块的特性得到合理分配,进一步的提升了编码器的性能,实现了全景系统中图像和视频的高质量、低复杂度编码。
最后,本文对以上研究内容和创新点进行了归纳和总结,并对全景技术的发展趋势和未来研究方向进行了展望。作为面向全景应用的图像和视频压缩算法的研究,本文为全景应用中实际使用到的全景图像和立体视频的压缩编码提供了新的研究思路、解决办法和发展方向。
首先,为实现球形全景系统中全景图像的高效编码,本文从全景图像自身的性质入手,提出了一个基于密集连接网络的压缩自编码器,实现了全景图像端到端的编码压缩。在提出的自编码器中,本文专门设计了密集连接网络块,实现了全景图像的特征提取、特征复用、特征冗余削减等功能,充分提升了全景图像的压缩性能。并在此基础上,结合全景图像在投影中像素点具有位置独立的权重的特征,设计了带权损失函数,为每一个像素点指定了权重项,确保了压缩自编码器可以切合全景图像的投影特性,针对性的优化网络参数。最后,结合设计的压缩自编码器结构对称的特性设计了贪婪的分块训练方法,实现了压缩自编码器网络的快速训练,避免了梯度消失的问题,提升了网络的整体性能。
其次,本文研究了对象全景系统中立体视频的高效编码。考虑到在对象全景应用系统中,立体视频的编码传输不仅需要保证本身视频的质量,还应当确保在用户端可以高质量的生成任意视点的虚拟视频。因此,本文从虚拟视点视频的结构相似性度量(structural similarity index measurement, SSIM)质量入手,逐步推导出了对象全景系统中立体视频失真与虚拟视点视频失真之间的数学关系,建立起了完整的虚拟视点视频失真模型,实现了虚拟视频质量指导的立体视频内部纹理视频分量和深度视频分量间的码率分配,提升了立体视频的编码性能。随后,本文针对已分配好码率的深度视频,设计了使用虚拟视点质量衡量参考深度视频质量的方法,并在此基础上,对深度视频块进行了自适应的分类,建立了深度视频块的码率-失真(rate-distortion, R-D)模型和码率-量化(rate-quantization, R-Q)模型,实现了深度视频分量的块级码率分配。进一步的,利用建立好的模型,本文设计了立体视频的率失真优化(rate distortion optimization, RDO)算法,提升了对象全景系统中立体视频的整体编码效率。
然后,本文考虑到各类采集设备在计算资源和能源上的局限性,设计了低复杂、低能耗的编码器,以满足这些设备的实际工况。具体而言,本文结合全景系统中图像和视频数据的特征,在压缩感知理论的基础上自行设计了一套完整的的编解码方案。该方案不仅可以实现全景应用的图像和视频数据的高质量压缩编码,还具有低复杂、低能耗的特点,能够充分满足采集设备的实际需求。同时,本文为搭建好的全景系统的低复杂度编解码器专门设计了基于局部熵最小化的自适应小波分解算法和基于块平均值的运动估计算法。前者可以在无损降低图像和视频块局部信息量的同时,分离出块的高低频分量,为后续结合块特性的差异化量化和采样奠定了基础。后者则在复杂度和性能间取得了平衡,实现了快速的运动估计,降低了立体视频帧间的时域冗余。针对设计的编码器,本文还探索了量化参数(quantization parameter, QP)和测量率对编码码率和编码失真的影响,并在此基础上建立了QP和测量率的联合优化算法,实现了图像和视频的块级码率分配,让有限的码率可以依据不同块的特性得到合理分配,进一步的提升了编码器的性能,实现了全景系统中图像和视频的高质量、低复杂度编码。
最后,本文对以上研究内容和创新点进行了归纳和总结,并对全景技术的发展趋势和未来研究方向进行了展望。作为面向全景应用的图像和视频压缩算法的研究,本文为全景应用中实际使用到的全景图像和立体视频的压缩编码提供了新的研究思路、解决办法和发展方向。