龙芯平台上高性能计算的性能优化关键问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:flowerofwind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高性能计算广泛运用在科学计算、可视化处理、商业数据模型分析等领域。程序性能与平台架构息息相关。龙芯作为具有自主知识产权的国产芯片的代表,它的3B系列芯片被广泛运用在航天、生物信息、气象等领域。但由于它的软件生态环境不健全,许多软件没有针对它的架构进行优化。龙芯普通访存速度慢,加上软件移植过程中龙芯编译器无法充分发挥硬件计算与访存分离的特性,软件与平台架构耦合性低,容易导致部分科学计算软件的运行性能低,不能满足用户的计算需求,这制约着龙芯的市场化推广。如何优化龙芯平台的软件性能成为龙芯亟需解决的问题。因此,本文围绕龙芯平台上高性能计算的访存和计算优化关键问题展开研究。主要的研究内容和贡献如下:(1)针对基础函数库与龙芯硬件架构耦合性低的问题,以BLAS库中矩阵矩阵乘函数GEMM为研究对象,提出了一种加速计算密集型应用的异步计算访存优化方法。该优化方法根据龙芯计算与访存分离的特性,通过对任务进行分组和流水化处理;然后在计算过程中,利用多通道DMA访存方法实现数据的预取或读写,从而将大量的访存开销隐藏到计算中;最后,使用SIMD指令向量化提升核心的计算性能。此外,通过分析计算与访存分离的特征,给出了一种龙芯平台上计算密集型应用的性能评估方法。(2)针对普通访存方法不能满足龙芯平台中应用访存速度需求的问题,以FFTW核心算法为研究对象,提出一种面向计算密集型应用的多层数据划分优化方法。该优化方法以龙芯3B1500处理器为研究平台,根据FFT中数据的访存规律,利用龙芯锁cache机制保证缓存中数据不会被替换,进而采用多层数据划分以提升缓存中数据的利用率,通过增加迭代层数提升寄存器堆数据的重用率,并且使用特殊向量指令加速核心运算;与此同时,通过使用CPU和DMA协同访存方法来提高数据读写速度。(3)针对CC-NUMA架构中易由数据部署不合理而导致计算密集型应用并行效率低的问题,以KD-90为研究平台,在PCAM并行框架的基础上,提出了一个面向计算密集型应用的并行框架HPFCA。根据应用的数据访存规律,对框架中的任务划分、节点间任务并行、数据重新部署、节点内多核并行和单核程序优化五个部分进行设计,利用访存数据局部性完成访存的性能优化。并且根据该框架,在KD-90上实现了GEMM和FFT的高效并行算法。(4)针对多核异构平台中应用程序难以并发执行的问题,以三维泊松方程求解算法为研究对象,提出了一种异构平台下多种计算资源负载均衡的高效算法。该算法通过使用多重网格法对三维泊松方程进行离散,将三维泊松方程求解问题转化成线性方程组求解问题,然后通过分析异构平台不同资源的计算能力决定任务负载比例,将任务按比例分配到不同的计算资源上,完成计算的负载均衡优化,从而提升异构平台中程序的并行加速比。
其他文献
目的 探讨B-Lynch缝合术对剖宫产后出血患者的临床治疗效果。方法 选取96例剖宫产后出血患者作为研究对象,随机分为观察组与对照组,各48例,均先行保守止血方法而效果不理想,
以承德滦河流域为案例研究区域,初步构建了流域输入响应模型。基于规划污染治理情景,分析了污染治理项目对流域水质改善效益。结果表明,污染源全部治理后,控制断面COD下降幅
摘要根据潮白河河道开展的地下水人工回灌试验,分析试验场地水文地质条件,运用Hydrus-2D模拟软件建立适用于二维地下水数值模拟的水分运移模型,预测不同回灌补水条件下试验场地
残疾人竞技体育是体育强国梦不可或缺的一部分,是展现一个国家人文素养和人道主义关怀的重要窗口。随着社会和经济的发展,成都市现有的残疾人竞技体育管理体系逐渐暴露了诸多不合理之处,难以适应残疾人竞技体育的发展要求。目前关于残疾人竞技体育管理体系的研究较少,因此,研究成都市这一中西部中心城市的残疾人竞技体育管理体系,有一定的理论和现实意义。本文的研究目的在于通过分析成都市残疾人竞技体育管理体系的结构和功能
云计算的兴起与发展彻底改变了人们对计算资源的使用方式,促生了以计算为中心向以业务和服务为中心的一次变革性转化。基础设施即服务(Infrastructure-as-a-Service,IaaS)模
群机系统是高性能计算机研究领域的热点之一,而用于连接群机系统内部结点的系统域网络(SAN)是群机系统研究的关键。本文在分布共享存储器结构的基础上研究高性能专用SAN网络,构
随着经济、政治、文化的不断发展变化,社会各种思潮的相互冲击,高校学生入党意愿与动机出现了多元化趋势。本文以贵州大学学生为例进行了实证调查,得出相关数据,分析了大学生
讨论了常曲率黎曼流形中具有平行平均曲率向量场的完备伪脐子流形,得到了这类子流形为全脐子流形的一个充分条件.