【摘 要】
:
运动估计是高级视频编码标准H.264的核心部分之一,通过高效的帧间预测方法大幅提升了视频压缩比,但高计算复杂度问题却给实时视频编码带来巨大挑战。近年来随着图形处理器GPU
论文部分内容阅读
运动估计是高级视频编码标准H.264的核心部分之一,通过高效的帧间预测方法大幅提升了视频压缩比,但高计算复杂度问题却给实时视频编码带来巨大挑战。近年来随着图形处理器GPU(Graphics Processing Unit)的并行计算能力越来越强,基于GPU的CUDA(Compute Unified Device Architecture)编程模型为优化加速运动估计部分提供了机会。因而,充分挖掘运动估计的并行性,并利用GPU对其进行优化加速,对以视频直播为代表的实时编码应用的快速发展具有重大意义。通过对运动搜索算法的改进和并行性分析,提出了基于GPU平台的H.264运动估计并行优化方案。首先,提出了一种适应于GPU并行计算特点的两级搜索算法:第一级是粗粒度全局搜索,以4倍步长在搜索窗口中找到第一级最佳运动矢量;第二级是细粒度局部搜索,在第一级最佳运动矢量位置周边的5×5区域内进一步搜索得到最终的运动矢量。此算法不仅极大地减少了搜索点,而且便于CUDA编程实现,可充分利用GPU的并行计算资源加速运动估计过程。其次,提出了CPU残差编码与GPU运动估计的异步计算模型:将帧分为N个块,由于每个分块的运动估计不依赖其它分块,所以当CPU对第n-1(0<n≤N)个分块进行残差编码的同时,GPU可以进行第n个分块的运动估计,等到第n-1个分块的残差编码完成后,CPU可以直接进行第n个分块的残差编码,避免相互等待。实验结果表明,采用两级搜索算法的并行优化方案比全搜索算法最高加速了40多倍,整体编码速度最高提升了30多倍;相比于一些快速搜索算法也有不同程度的加速。相应的视频质量损失在用户可接受范围内,峰值信噪比PSNR(Peak Signal to Noise Ratio)最大误差为1.2dB。
其他文献
嵌入式系统是以应用为核心的计算机系统,是计算机市场中增长最快的领域。嵌入式系统一般采用片上高速静态随机访问存储器SRAM(Static Random Access Memory)与片外低速动态随
在科学研究和实际应用中,分辨率是表征图像观测水平的一项关键性能指标。但是,伴随着科技信息的迅速发展,某些应用领域和科研工作中对图像分辨率的需求越来越高,因此需要改进
在计算机视觉和模式识别领域,动态场景下的行为检测和识别是最受关注的研究方向之一,它具有很广泛的应用前景。但是现今大多数的研究都是针对于简单环境的,如果将现有的方法
在信息化高速发展的今天,各行各业用到的文件大多由现在的电子文件取代传统的纸质文件。传统以保护纸质文件为核心,这种安全管理的理念很难适用于电子文件的安全管理。随之就
无线传感器网络通常由部署在特定区域的数量庞大的微型传感器组成,这些传感器节点之间互相协作对需要监测的区域进行实时的监测和收集有用的信息,传感器节点监测得到的有用信
容错技术是保障系统运行的关键技术,其中检查点技术被广泛应用。但是,传统的基于磁盘的检查点会给系统带来巨大的性能损失。基于内存的检查点技术通过共享工作内存和检查点数
在过去十几年中,生物识别技术已经相当成熟了,它是一门利用统计学方法和人体生理活动数据来验证个人身份的技术。心电信号ECG(Electrocardiograph)本身因人而异的,并且在每个
云服务软件需要对外提供不间断的在线服务,但是由于功能的复杂和代码规模的庞大使得软件中难以避免存在bug,如果这些bug引发了性能异常问题,开发者将很难对这些性能异常进行
当前社会对互联网移动性的要求不断提高,而目前的互联网体系结构是针对固定网络而设计的,因此不能很好的支持网络移动性,针对这一问题提出的MIPv6(Mobile IPv6)、HMIPv6(Hier
随着科学技术和人们物质文化生活的不断提高,机器人应用范围也越来越广,对机器人的控制要求也越来越高。目前,具有视觉功能的机器人和多机器人协调是机器人领域的研究热点。