新一代视频编码标准VVC的帧内快速算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wayl1s1s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,高清视频的市场需求急剧增长,随之而来对高清视频的压缩要求也更为严格,新一代视频编码标准------多功能视频编码(Versatile Video Coding, VVC)标准正是在此背景下被提出。VVC采用了传统的混合编码框架,在高效视频编码标准(High Efficiency Video Coding, HEVC)的基础上,在各个编码模块均添加了许多新技术来提高压缩性能,但这同时增加了其编码复杂度,导致编码时间过长,使其实际应用较为困难。因此,在保证VVC编码性能的同时降低其编码复杂度是当前视频编码领域的研究热点。
  本文主要对VVC标准中帧内预测的快速算法进行研究,包括其中的模式选择过程和二次变换选择过程。相比于HEVC的35种帧内预测模式,VVC为了更高的编码性能,将其数量增加至67;在变换模块,VVC采用二次变换技术,即在传统一次变换的基础上,添加2种变换核,对一次变换结果进行二次变换,因此,VVC的帧内预测过程更为复杂。针对其中模式选择和二次变换选择的高复杂度,本文提出基于已有的编码信息和相关性信息,来实现模式选择快速算法和二次变换选择快速算法。
  首先,本文利用已有的编码信息,来实现模式选择快速算法。第一,通过分析粗选过程(Rough Mode Decision, RMD)模式和最可能模式(Most Probable Modes, MPMs)之间的关系,提出了一种候选列表删减算法,实现模式选择的复杂度降低;第二,利用预测模式的RMD代价与率失真优化(Rate Distortion Optimization, RDO)代价之间的相似性,实现模式选择RDO过程的提前终止,进一步优化帧内预测过程。在VVC参考软件平台VTM2.0上验证了该算法的性能,从测试结果可以看出,两种算法的编码性能与原始平台几乎一致的情况下,能够降低30.61%的编码时间,实验效果优于最新的算法。
  其次,本文利用已有的编码信息和相关性信息,来实现二次变换选择快速算法。第一,本文提出利用当前编码单元(Coding Unit, CU)与其相关CU变换选择的相关性, 提前决策当前CU的最佳变换,来终止二次变换选择过程;第二,通过分析一次変换非零系数个数对最佳变换选择的影响,提出了一种基于阈值的二次变换提前终止算法。在VVC参考软件平台VTM6.2上验证了该算法的性能,从测试结果可以看出,两种算法的编码性能与原始平台几乎一致的情况下,能够降低18.10%的编码时间。
  最后,对上述的模式选择和二次变换选择快速算法进行联合仿真,再次论证了帧内预测的两个关键过程------模式选择与二次变换选择对其编码时间的影响。从测试结果可以看出,对比VVC参考软件平台VTM6.2,联合算法在码率增加不明显、信噪比基本不变的情况下平均减少了34.38%的编码时间。
其他文献
近些年来,随着生活水平的提升,人们对体育运动的参与度越来越高。但运动的开展需要专业教练的指导和点评,动作不规范轻则达不到锻炼效果,重则损伤身体机能。动作分析技术的出现,使得人们可以随时随地了解自身动作完成情况,获得专业的点评。传统的动作分析方法主要基于运动捕获设备,存在佩戴不方便、设备高成本、方案不通用等缺点。基于视觉的相关研究很多,但基本都局限在视频动作分析的某一环节,缺少一种从视频数据到人物动作分析结果的端到端解决方案。将现有技术应用到视频动作分析中,还需要解决诸如人物运动模糊、关键点遮挡、相似动作区
随着计算机视觉技术的不断发展,作为核心问题之一的图像语义分割也越来越受到学术界和工业界的关注。图像语义分割旨在将图像中的每一个像素划分到事先定义好的语义类别当中去。通过对该问题的研究,一方面有助于理解人类视觉机制,以辅助探索图像理解和场景感知等更高层次的视觉任务;另一方面也可为自动驾驶和图像搜索等广泛的实际应用场景提供理论与技术支撑。
  现有的基于图像级标签标注的图像语义分割算法将缺失的标注信息视为一个整体进行恢复,一般首先生成图像的像素级伪标注数据,然后再使用这些伪标注数据训练算法模型。虽然这些
【摘要】水利水电工程施工质量安全,一直都是人们关注的焦点,同时与国民经济发展、造福人们生活息息相关,随着我国社会发展的脚步越来越快,建设兴修水利水电工程的项目就自始没有停下,水利水电工程是一项利民大业,不仅能够有效消除水灾,还能够充分利用水资源改善能源短缺、水源污染环保等问题。随着我国相关政策的不断落实,对于水利工程质量安全的施工,提出了更多的要求。作为工程建设中必不可少的环节,施工质量安全不仅关
期刊
随着3D数据获取的便利,3D数据大量出现,对原始3D数据质量提升的需求也愈发迫切。网格数据作为3D数据的一种主流表达形式,其高质量的恢复显得尤为重要。3D网格数据的处理流程一般包括重建和去噪这两个阶段,即先从2D观测重建出3D网格,再对3D网格进行去噪后处理。本文的3D网格重建和去噪算法旨在研究如何提高这两个阶段所输出3D数据的质量。锐利边缘是保证3D网格数据高质量且细节丰富的关键特征。然而,在以往的3D网格重建或去噪任务中,它没有引起人们足够重视,甚至常被错误地以噪声处理。在3D网格重建任务中,需要解决
近年来,计算机视觉应用领域出现了从2D视觉到3D视觉的转变,3D视觉显著性检测作为这些应用的基础,引起了广泛的研究兴趣。与传统2D显著性模型不同,3D显著性模型挖掘了场景不同模态的线索,包括2D线索、深度线索和运动线索等,有助于提高显著性检测的性能。多模态显著线索之间存在互补和竞争关系,如何有效地融合这些线索仍然是一个挑战。因此,本文基于最常用的3D数据格式之一,即RGB-D视频,重点研究了显著性检测中多模态线索融合的问题。然后,为了进一步提高显著性检测模型的性能,本文选取了近几年兴起的光场数据,它相比于
高效压缩是视频通信的前提,特别是对于面向未来交互式视频应用的多视点视频加深度(Multi-view video plus depth, MVD)数据而言尤为重要。MVD的高效压缩虽然给视频传输、存储带来了可能性,但是在编码过程中所产生的压缩失真具有不可逆性,这给终端用户的图像呈现、人机交互、图像绘制等均带来重大影响。如何能够在没有编码端原始高质量信号的前提下有效提升终端用户的MVD质量,是未来交互式视频在面向实际应用过程中亟待解决的挑战性难题。传统视频编解码器中的环路滤波能够利用图像空域信息进行质量提升,
各种网络应用技术的提升以及实现,使得人们的生活变得丰富多彩。无论是虚拟现实,还是交互式游戏等强大的应用,归根结底都需要网络技术的支持。为了保证用户的服务质量,这些应用往往需要网络能提供高带宽,低延迟,以及带宽的公平分配。网络拥塞控制算法BBR(Bottleneck Bandwidth and Round-trip propagation time),是由谷歌新提出的具有良好性能的拥塞控制算法,其在带宽利用以及延时方面,相较于当前常用的Cubic算法均有明显提升,更能适应当前应用场景的需求。然而,随着对BB
近年来,高清视频技术为用户带来了更好的视觉体验,但同时也带来了巨大的存储与传输的挑战。因此视频压缩技术已经成为解决大容量视频传输与存储问题的关键。传统的视频压缩技术是基于变换量化操作的有损压缩。因此,在压缩的过程中会出现高频信息,以及细节信息的丢失。这些信息的丢失会导致压缩后的视频质量下降,出现诸如方块效应、振铃效应等失真。传统的视频压缩技术中具有对质量失真进行补偿的技术,被称为环路滤波。但是传统的环路率滤波技术泛化能力低,无法对不同内容的视频均达到良好的补偿效果。基于以上所述的挑战,本文采用深度学习的模
【摘要】我国现在开始推行绿色可持续发展,通过使用清洁能源的方式来发展我国的经济。所谓的清洁能源是指水能、太阳能、风能等可再生能源,这些能源在使用的过程中不会产生环境污染,同时能源可再生,对于环境保护有很大的帮助。并且我国的水电在这几十年中发展速度十分快,如今已经建设成了多做大型水电站,而且在许多水源充足的地区小型水电站成为当地电能供给的主要形式。小型水电站使用方便,但是在建设和维护的过程中我们也会
期刊
近年来,乳腺癌(Breast Cancer,BCa)是全球女性死亡率最高的癌症之一。由于乳腺中的组织较为疏松且乳腺周围分布着大量密集的淋巴结,肿瘤细胞很容易随着淋巴液和血液转移至身体的其他器官,即发生BCa的远处转移。当发生远处转移时,需先进行术前新辅助治疗(Neoadjuvant Therapy,NAT)直至患者体内的残余肿瘤负荷(Residual Cancer Burden,RCB)降低至一定水平,即具有手术指征后,再进行局部肿瘤的切除手术。RCB的计算需要6个参数,其中计算最为繁琐且困难的是肿瘤细胞