论文部分内容阅读
随着信息多媒体技术的不断发展,高清晰度视频的应用逐步普及,社交媒体上大量的视频数据使得高效的压缩编码技术愈发重要。针对这一需求,视频编码联合小组JCT-VC于2013年开发出新一代视频编码标准HEVC,相比于前一代编码标准H.264/AVC,HEVC能在达到相同的编码质量的情况下,减少50%所需比特。但与此同时,HEVC的编码复杂度大大上升,这也导致HEVC较难被一些实时应用或移动终端所采纳。另一方面,随着计算机视觉、智能数据分析等技术的高速发展,有许多新型的智能应用涌现,例如监控视频分析、医学图像理解等,许多的视频数据需要被压缩传输后经由这些智能应用处理。因此,针对这些智能应用来提升编码效率十分必要。本文围绕降低编码复杂度及智能比特分配两大核心问题,开展了深入的研究。HEVC巨大的帧内编码复杂度来源于灵活多变的编码单元大小以及多达35种的帧内预测模式。我们提出了基于深度学习的加速框架LFHI,满足了多功能的加速需求。首先,我们提出了高效的非对称核卷积神经网络(asymmetric-kernel convolutional neural network,AK-CNN),能够在低复杂度的条件下准确地预测HEVC的编码模式;其次,针对多样化的预测模式,我们引入了最少率失真优化模式MNRC这一概念,从全新的角度解决了快速模式选择这一问题,能够在编码性能损失更小的情况下减少其复杂度;然后,我们使用了基于演化算法的门限机制,实现了可配置的复杂度-编码性能折衷;最后,为了适应HEVC中的多种量化参数,我们设计了基于插值法的联合预测方案,使得我们的框架能较好地泛化至不同的量化参数。在HEVC的官方测试序列上,我们的方案能够减少75.2%的帧内编码复杂度,而仅带来2.09%的额外码率,这一表现显著优于已有算法。另一方面,以语义层面的准确性为优化目标,智能地调节现有编码框架的比特分配方案是十分有意义的,我们提出使用深度强化学习来解决这一问题。首先,我们将比特分配这一任务归约为马尔科夫决策过程,然后,我们引入了强化学习,根据不同的视觉任务,如分类、检测或分割等,智能地决定量化参数,提供更好的比特分配方案,编码后产生的语义失真将作为反馈信息用来更新强化学习智能体。我们还利用Grad-CAM、Mask R-CNN等工具提取图像/视频中的重要性图,该信息可以帮助强化学习智能体更好地做出决策。相比于HEVC官方参考软件HM,在同等语义失真度量下,根据不同的视觉任务,我们的方案能够降低43.1%到73.2%的所需比特。