基于龙芯3B平台的FFT算法向量化研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sqlservermaintenance
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速傅里叶变换(Fast Fourier Transform,FFT)算法是数字信号处理、音视频分析等领域最重要的研究工具之一。龙芯3B处理器主要面向高性能计算等领域,并通过提供向量功能部件以增加其对高性能计算等应用的支持。所以,在龙芯3B处理器上实现高效的FFT算法是必不可少的。然而目前的FFT算法因未能充分利用龙芯3B处理器的向量功能部件,仍面临算法性能较低的问题。因此,在龙芯3B处理器上对FFT算法进行向量化的研究具有重要的意义。针对该问题,本文围绕如何在龙芯3B处理器上实现高效FFT算法这一主题进行展开。本文结合龙芯3B处理器的体系结构特征,采用向量化的方法对串行和并行FFT算法进行优化,最终提升FFT算法在龙芯3B处理器上的性能表现。本文的主要内容包括:1.充分利用龙芯3B处理器对向量化的支持,将串行FFT算法在龙芯3B处理器上进行优化。本文首先针对FFT算法特点分析FFT算法在纵向和横向上的向量化方案。同时对于边界的处理和分块大小进行了相关的讨论。根据边界的不同选择不同的处理方式,使得算法的计算速度达到最优。最后本文结合龙芯3B处理器的体系结构特性,提出了基32迭代的向量化FFT算法。实验结果表明,对于实验所选的测试规模(27,……,216),基32迭代的向量化FFT算法最高性能达到1341.12Mflops,是FFTW软件包的3.51倍;平均性能达到了765.15Mflops,是FFTW软件包的2.12倍。2.将串行FFT算法的向量化方案应用到并行FFT算法中。由于并行FFT算法总共包括两部分,其中第一部分各个处理器核之间不需要通讯。针对这个特点,本文对核与核之间不需要通讯的部分在龙芯3B处理器上采用向量化的方法进行优化。实验结果表明,对于实验所选的测试规模(215,……,224),双核平均加速比为1.96,最大加速比为2.11;四核平均加速比为3.72,最大加速比为3.94;八核平均加速比为5.90,最大加速比为6.25。综上所述,无论是单核还是多核,本文提出的优化方法都能够使得FFT算法在龙芯3B处理器上取得更好的性能表现。
其他文献
我国作为最大发展中国家,经济发展仍离不开传统能源,急需解决环境问题和能源问题,但在科学技术水平上离发达国家有一定差距,碳减排任务较艰巨。在全球碳减排、保护环境的大背景下,我国作为人口大国和能源消费大国,有责任有义务贡献一份力量。但我国能源消费结构仍以煤炭为主,且在短时期内该模式难以改变,能源消耗模式较粗放。因此,我国迫切需要改变目前不合理的能源消费结构现状。对此,我国在顶层设计上大力推进美丽中国建
随着"互联网+"迅速发展,互联网时代已渗透进中学校园中。消费作为21世纪经济发展的主导力量和关键资源,对生产和发展的制约作用越发凸显。由于学生易于接受新鲜事物,"互联网+
目的探讨腹腔镜胆囊切除术对胆结石患者的临床疗效及术后并发症的影响。方法选取2017年1月~2019年12月52例于我院治疗的胆结石患者,按随机数字表法分为两组,各26例。对照组采
目的:探讨利巴韦林联合孟鲁司特钠片对急性上呼吸道感染患儿炎性因子及免疫功能的影响。方法:选取某院收治的80例急性上呼吸道感染患儿作为观察对象,根据随机数字表法分为2组,
目的探讨不同体重患者设置不同低剂量对比剂使用自动触发技术在64排螺旋CT行肺动脉CT血管成像(CTA)中的应用。方法将33例患者(成人)按不同的体重分为A组3例,体重小于50 kg,B组24
明确了管理会计核算在电信企业的目标和定位,介绍了管理会计核算在电信企业的应用——多维度成本管理,提出了管理会计核算在电信企业落地的保障机制。
<正>《水浒传》中的鲁智深,有着侠义的品格,有着佛禅的精神,是一个“英雄禅客”。(袁无涯语)作为英雄禅客的鲁智深, 历来被认为是《水浒传》中塑造得最成功的形象之一,金圣叹
会议