论文部分内容阅读
三维(Three-Dimensional,3D)视频系统因能提供更加真实的立体视频感知体验和支持用户自由选择观看角度,已成为视频编码和通信领域的研究热点。为了在解码端能提供立体视觉体验,与2D视频系统相比,3D视频系统需要传输更多的视频数据,给传输网络带来了极大的传输负担。因为深度视频表示场景到相机的距离远近信息,它最终用于辅助虚拟视点的绘制。在解码端利用基于深度图的绘制技术可以绘制出多个虚拟彩色视点。所以目前广泛采用多视点彩色加深度(Multiview Video Plus Depth,MVD)的3D场景表示方式,减少了3D视频传输所需要的数据量。与单视点彩色视频相比,MVD信号包括多个视点的彩色视频及对应的深度视频,除了具有时空域相关性之外还具有视点之间相关性。为了提高MVD信号的压缩效率,3D视频编码参考平台(Test Model of 3DHEVC,HTM)采用模式全遍历、四叉树递归分割、率失真优化、运动估计和视差估计等技术。深度图像一般是由大部分的平坦区域和少量尖锐边缘区域组成,编码特点与传统的彩色视频相比有很大不同。此外,深度图像的质量影响着绘制的虚拟视点彩色视频质量。因此,为了尽可能地提高深度视频的编码压缩效率和提高虚拟视点绘制质量,HTM还采用了深度模型模式、运动参数继承和基于虚拟视点失真的率失真优化准则等技术,这些技术的增加使得深度视频的编码复杂度远远大于彩色视频编码复杂度。因此,在保证高质量的虚拟视点和高压缩率条件下,提出低复杂度深度视频编码方法对于3D-HEVC的实时应用具有非常重大的意义。本文提出了三个创新的、有效的算法,主要包括:(1)提出了一种基于多类支持向量机的深度视频帧内编码快速算法。深度视频最大编码单元(Largest Coding Unit,LCU)的最优分割深度与空域相邻编码单元(Coding Unit,CU)的最优分割深度及当前LCU的空域复杂度有关。在离线训练阶段,利用空域相邻CU的最优分割深度及当前LCU的空域复杂度作为特征,当前LCU的最优分割深度作为标签,建立多类支持向量机模型。在预测阶段,通过模型得到LCU的最大分割深度,提前终止CU递归分割过程和模式决策过程。实验结果表明,与原始测试平台HTM-10.0相比,在基本不影响虚拟视点绘制质量和编码码率的条件下,本章提出的快速算法能平均节约35.91%的总体编码时间和40.04%的深度视频编码时间。(2)提出了一种基于贝叶斯理论的深度视频帧间编码快速算法。深度视频帧间编码条件下,当前LCU与时空域相邻LCU的最优分割深度具有很高的相关性。因此提出的算法利用时空域相邻LCU的最优分割深度作为特征,当前LCU的最优分割深度作为标签,离线训练得到贝叶斯模型。在预测时,利用当前LCU的时空域相邻LCU的最优分割深度作为模型输入,得到当前LCU的最大分割深度。在模式选取时,利用统计特性加速CU模式选择过程。实验结果表明,与原始测试平台HTM-10.0相比,在几乎不影响编码率失真性能和不降低虚拟视点质量的条件下,本章算法能平均节约65.03%的深度视频编码时间。(3)提出了一种基于运动一致性的深度视频帧间编码快速算法。深度视频与对应的彩色视频具有很高的结构与运动相似性。提出的算法首先利用彩色视频CU的运动矢量信息将彩色视频分为运动区域与静止区域。然后,当前深度视频编码帧与时域参考帧作帧差,得到前向和后向帧差图,再利用大津阈值算法将帧差图二值化分为深度视频静止区域和运动区域。最后,将当前深度视频编码帧分割为:深度和彩色视频都运动区域、深度和彩色视频都静止区域、深度视频运动但彩色视频静止区域、深度视频静止但彩色视频运动区域。当LCU属于不同的分割区域时,设置不同的编码策略。实验结果表明,与原始测试平台HTM-10.0相比,在保证虚拟视点绘制质量的情况下,本章算法能平均节约63.58%的深度视频编码时间和40.13%的总体编码时间,编码率失真性能平均提升2.78%。