论文部分内容阅读
传统基于字典学习的视频编码系统总是忽略其信号本身的特征分布,从而导致了很高的计算复杂度,降低了编码效率。本文提出了一种基于时空在线字典学习算法()来加速字典学习的收敛速度,并保证了一定的估计误差。所述算法利用随机梯度下降法来构造三维高频与低频的时空字典对。在每次的学习迭代过程中,基于块梯度下降法学习算法优化全部训练集样本所产生的经验代价,例如。与之不同的是,随机梯度下降法随机地选择一个训练集样本,基于该样本更新字典原子最小化近似期望代价。由于训练集中的样本假设为独立同分布,稀疏表示分解系数可以通过训练字典得到。相较于算法,本文所提出的基于时空在线字典学习算法理论上可以证明有更近似的稀疏表示,并能保持视频信号的结构化稀疏以及层间稀疏性。同时,随机梯度下降法比批量梯度下降法有着更快的收敛速度以及更低的计算复杂度,其预测误差上限渐近地逼近训练误差。大量实验证明,计算复杂度的降低能够使基于时空在线字典学习的编码框架比现有基于超分辨率的编码方案以及标准编码器H.264、HEVC有着更好的客观、主观质量以及率失真表现。进一步地,利用结构化稀疏的机器学习,本文提出了一种新的基于多尺度在线字典学习算法的质量可分级视频编码框架。通过小波变换对图像特征的层次化结构进行分解,将在线学习的搜索域优化为带有层次化稀疏的区块。其中,基本层低频子带利用图像组稀疏特征来获得低频子字典以及稀疏表示系数。可以证明,所设计的跨尺度分解重构质量可由一个有上界的估计误差保证。在字典优化模块,通过随机梯度下降法直接更新期望代价而不是经验代价来降低计算复杂度。层次化的高频结构信息通过一个预先学习的子字典对来进行预测,实现可分级视频编码的目的。实验证明,所述算法能够渐进地实现质量可分级性。对于不同传输环境的异构网络,本文提出了一种基于渐进式字典学习的时间可分级视频编码框架。通过可分级帧预测结构,视频帧可以基于预先学习的时空字典连续重构得到。在所述的渐进式字典学习算法中,随着重构增强层的增加,重构视频帧提供了更多样本来优化学习字典。在实际编码中,通过直接最小化期望代价,基于随机梯度下降法的字典更新极大的降低了编码复杂度。可以证明,基于渐进式时空字典学习的可分级视频编码框架能够有效地保证视频中的运动一致性。