典型图像处理算法在Xeon Phi平台上的实现与优化技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:tonyrice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着异构平台的兴起,高性能计算领域获得快速的发展。基于CPU+GPU的异构平台在以生物信息学、医学成像和计算流体力学等为代表的诸多领域获得广泛应用。但是,CPU和GPU使用不同指令集和编程模型,对程序编程优化有较高要求。Intel于2012年推出了基于众核架构的Xeon Phi协处理器,兼容传统x86编程模型和特性,某种程度上降低了程序编程优化的难度。Xeon Phi集成50个以上的x86轻量核,每个核支持4个硬件线程和512位SIMD向量处理,因而具有强大的并行处理能力。目前,使用Xeon Phi进行算法优化加速的研究尚处于起步阶段。本文面向典型图像处理算法在Xeon Phi平台上的实现与加速展开研究。图像处理算法对计算性能需求较高,具有数据量大和较高实时性的特点。本文选取了两个代表性算法作为研究实例,分别是2D IDCT算法和3D GVF场算法。本文主要工作包括:(1)在Xeon Phi平台上实现2D IDCT及相关优化。首先依据行列分离计算原理串行实现2D IDCT,以此作为后续优化的性能基准,然后采用512位SIMD和OpenMP对串行2D IDCT进行向量化和线程扩展,最后进行数据预取优化。实验结果表明,对单精度图像格式,相比未向量化版本,向量化处理可获得约5.84倍的性能加速,且算法性能随线程扩展近似线性增加;使用数据预取优化可在已有优化基础上再获得约1.24的性能加速。综合来说,优化后的2D IDCT算法在Xeon Phi上的最好性能相比在一颗E5-2670 CPU上的最好性能有约1.53倍的加速比。(2)在Xeon Phi平台上实现3D GVF场计算及相关3D GVF场优化。除讨论向量化和线程扩展等通用优化外,侧重在模板计算优化对计算性能的影响,提出一种有效的循环分块优化策略,有效提高了缓存利用率。实验结果表明,对双精度图像格式,经线程扩展和向量化能显著提升3D GVF场运算性能,通过提出的分块优化策略,在问题规模为′′256256256和′′512512512时,3D GVF在Xeon Phi上的计算性能在相比于在一颗E5-2670 CPU上的性能分别有约1.78和2.77的加速比。(3)归纳总结图像处理算法在Xeon Phi平台上的优化规律,整理出有指导意义的优化技术,方便后续其他图像处理算法的优化。一般而言,对计算密集型的算法,直接采用诸如向量化和线程扩展等通用优化技术可获得不错的性能提升;对计算访存比较低的图像处理算法,需要考虑提高缓存的利用效率,本文提出的循环分块策略即是一种有效的方法。
其他文献
面向对象软件测试是面向对象软件开发中不可缺少的一环,是保证软件质量,提高软件可靠性的关键。类是面向对象方法中最重要的概念,是构成面向对象程序的基本成分,因此类成为面向对
网格计算是近年来国际上兴起的一种新技术。网格的根本目的是实现非平凡的资源共享和协同工作,消除信息孤岛和资源孤岛,使用户能够便利得使用网格资源。网格在众多领域都得到
近年来,随着信息技术的不断发展,不确定数据流广泛存在于诸如传感器网络、基于位置的服务和RFID网络等现实应用中。对不确定数据流进行高效查询处理已成为当前大数据处理的一
传统的汽车信息服务系统中,服务对象只能被动地接收信息,而信息则由作为服务提供者的公共机构或各汽车厂商的服务中心统一提供,即所谓的中央集权型网络。服务对象与服务提供者之
微流体芯片(Micro-fluidicChip)是近年来刚刚发展起来的一门新兴技术。它是建立在毛细管电泳系统基础之上,与微电子机械系统(MicroElectroMechanicalSystem)、生物化学、分析
随着网络技术的不断发展,新型的网络应用需要新型的协议支持,研究RTP协议用于多媒体数据的实时传输具有一定的现实意义。 本文首先根据多媒体数据实时传输对通信网络的新要
随着科学技术的日新月异,信息化已是世界经济和社会发展的大趋势。信息网络技术的推广和运用,促进了现代社会的高速发展。检察机关作为国家的法律监督机关,开展科技强检工作,
目前,软件体系结构的研究主要集中在静态体系结构上。对于一些需要长期运行并具有特殊使命的系统(例如金融系统、航空航天系统等),如果系统需求或环境了发生变化需要更新,此时停
利用有效的质量管理信息系统提高产品质量是企业成功的关键。今天,多数企业已经建立了较为完善的以计算机为辅助手段的质量保证体系(如ISO系列质量标准),然而对于软件开发人
在经纬仪跟踪目标过程中,基于模拟视频图像的实时存储系统既可以完成实时采集CCD 视频图像、实时存储图像的任务,又能够实现事后图像判读解算目标弹道的功能。本文研究的主要