论文部分内容阅读
三维视频(three dimensional video,3DV)由于包含距离(深度)信息,不但能够为观众的左、右眼各提供不同视点的视频从而让用户体验到三维视觉感知,而且还能够利用多路视频以及相应的深度信息合成某一个视点范围内的任意视点的视频。在近些年来,其相关技术受到了众多研究者的重视。3DV的数据格式可分为多视点视频(Multiview Video, MV)格式和多视点视频+深度(Multiview Video plus Depth, MVD)格式两种。前者能为观众提供视点数量有限的三维视频体验;后者则可以利用基于深度-图像渲染(Depth Image Based Rendering, DIBR)技术合成一定视点范围内的任意视点的虚拟视频。由于后者具有数据量相对较少、合成视点质量高、易于压缩以及前后向兼容等优点而被广泛使用。因为MVD原始数据量依旧巨大,难以在当前的网络和存储体系中大量传输和存储,所以如何对其原始数据进行压缩,使其既能适应当前的网络传输负荷以及满足当前的存储空间限制,又能保证符合用户要求的高质量的编码信息重建,是目前3DV系统需要应对的艰巨任务,因此高效的三维视频编码技术显得十分重要。多个视频标准化组织已经成立特别小组在已有的二维视频编码标准基础上对三维视频编码进行特别研究,其中,国际标准化组织运动图像专家组(Moving Picture Experts Group, MPEG)和视频编码专家(Video Coding Experts Group, VCEG)已经联合制定了基于H.264/AVC的多视点视频编码(H.264/MVC)标准,联合制定了基于高性能视频编码(High Efficiency Video Coding, HEVC)标准的多视点视频编码(MV-HEVC)标准和多视点-深度编码(3D-HEVC)标准。同时,有大量的研究人员针对该领域进行研究,发表了相当数量的专业文献。在此背景下,本文重点研究三维视频的编码的关键技术,主要研究内容及成果如下:1、深度图序列的时域下采样编码及重建方法首先对3DV编码结构进行分析,提出了两种基于时域下采样的编码方法以及相对应的基于深度传播的深度图时域插值方法。在对左、右两个非基视点进行深度时域下采样编码的方法中,首先将通过运动矢量场获得丢弃的深度图帧初始的深度重建,并将该初始重建进行深度平滑区域和非平滑区域的划分;然后针对不同区域中不准确的深度信息采用不同的方法进行深度修正。在对于中间视点进行深度时域下采样编码的方法中,基于时间一致性和视点间的相关性获得丢弃的深度图帧的参考重建,利用原始的中间视点的深度图作为参考恢复出丢弃的深度图帧。两种方法获得的深度重建需要利用维纳滤波器进行滤波从而获得丢弃的深度图的高质量的深度值。提出的方法需要向编码端发送维纳滤波系数和重建深度选择标识符。实验结果表明,在保证同等码率的前提下,解码端重建的虚拟视点的质量(峰值信噪比:Peak Signal to Noise Ratio, PSNR)最大能有0.388dB的质量提升。2、基于虚拟视点引导的失真度准则以及新的拉格朗日乘子的深度序列编码提出虚拟视点引导的失真度准则以及在此准则上提出一个新的拉格朗日乘子,并将它们用于深度图序列编码的率失真优化(Rate Distortion Optimization, RDO)过程中以提高深度图序列的编码效率。3DV包含了多视点纹理视频以及相应的深度图序列。其中,深度图序列的目的在不是用于用户观看,而是用于解码后合成虚拟视点。因此在考虑虚拟视点质量的情况下提出一个改进的失真模型,作为在深度图序列编码过程中的失真准则,同时在基于此准则基础上,提出一个面向虚拟视点的拉格朗日乘子,并将它们用于深度图序列编码的RDO过程中。提出的方法与H.264/AVC相比,解码端重建的深度图质量(Bjontegaard peak signal-to noise ratio, BD PSNR)最大值有0.458dB,平均有0.258dB的质量提升。3、解码重建的MVD合成的虚拟中间视点的失真模型基于解码重建两个相邻参考视点的多视点纹理视频以及相应的深度图序列推导出合成的虚拟中间视点的失真模型。我们首先引入深度四叉树分解(Depth Quad-Tree Decomposition, DQTD)方法对虚拟的中间视点失真进行分析,从而推导出和成的虚拟中间视点失真与表征两个相邻的参考视点的多视点纹理视频的平均失真,相应的深度图序列的平均失真三者之间关系的一个简单的二次模型:虚拟视点平均失真(Virtual View Average Distortion, WAD)模型。推导得到的WAD模型可用于运动估计、模式判决的RDO过程以及纹理和深度编码码率分配过程中,具有良好的效果。4、基于模型的多视点纹理视频以及相应的深度图序列的联合编码码率分配针对多视点纹理视频以及相应的深度图序列的联合编码码率分配问题提出了基于虚拟中间视点失真模型的解决方案。首先分别针对解码后的两路相邻视点的多视点纹理视频以及相应的深度图序列的平均失真、和码率与相应的量化参数(Quantization Parameter, QP)之间的关系,推导出多视点纹理视频平均失真-量化参数(Average Distortion-Quantization Parameter, ADQ)模型,多视点相应的深度图序列的ADQ模型,多视点纹理视频和码率-量化参数(Sum Bitrate-QP, SBQ)模型和多视点深度图序列SBQ模型;然后,基于这些模型以及先前提出的WAD模型将纹理和深度联合编码码率分配方案构建成一个具有复杂约束条件的优化问题。该问题可以通过基因算法(Genetic Algorithm, GA)直接寻找的最优的QP值对得以求解。提出的码率分配方案由于考虑了合成视点的性能和码率的利用情况,限定的编码码率和实际的编码码率之间的绝对差(被称作是“码率不准确度”)平均只有7.405%,在相同的比特限制条件下,最大能够达到1.951dB的增益。