数万核级与异构架构有限元程序可扩展性测试与分析

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:mn012love
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文对多尺度有限元程序msFEM的CPU、GPU双精度以及GPU混合精度三个版本进行了测试.msFEM_CPU在美国橡树岭国家实验室的Jaguar上实现了从2万到20万核的可扩展性测试,在80亿自由度的测试规模下,20万核的并行效率为71%.msFEM_GPU采用MPI+OpenMP+CUDA的混合并行模式实现了GPU全双精度和混合精度两个版本.GPU版在Jaguar和华南超算中心(深圳)的曙光6000/Nebulae分区上分别实现了900和1500个GPU节点的全系统可扩展性测试,实现近线性加速,GPU节点规模最大时并行效率为90%以上.混合精度算版本相对全双精度算法有1.5倍加速.测试表明:msFEM具有良好的可扩展性,为大规模问题求解奠定了基础.
其他文献
网络流量的不断增长和网络攻击形式的多样性,使得网络入侵检测系统(NIDS)变得越来越复杂。基于单引擎检测的NIDS 靠辅助硬件和改进检测算法来提高处理性能,已无法适用10G 以上流量的线速处理要求。利用多检测引擎进行并行处理是实现高性能入侵检测的重要技术手段,并行检测系统通过多检测引擎进行并行协同检测,具有高性能和可扩展的优点。综合现有并行入侵检测框架的优点,提出了一个统一的支持多检测引擎并行检测
基于本体的案例检索系统中,由于数据库中的案例数量随着时间的推移而成倍增加,案例检索的效率不断降低。本文提出了一种多维案例检索算法DRR,该算法通过将多维空间案例点降维成二维空间点,利用一个二维空间点来代表类案例点组成的集合,并对此二维空间点建立R树空间索引,通过两级检索的方法,加速了检索效率和准确率。实验证明该方法不仅提高案例检索的准确率,还极大地提高案例检索的效率。
本文提出了基于词共现和语义分析的网络百科开放分类聚类算法、开放分类层次结构树生成方法以及层次结构树聚类算法。实验结果表明,开放分类层次结构树的准确率较高,利用开放分类层次结构树检索百科条目的查全率较高,说明了该方法的可行性和有效性。
当前在高性能计算机平台上,大规模、大尺度、长时程数值计算由于浮点计算的舍入误差累积效应,常导致不可信的数值结果。与此同时,多项式函数广泛应用于大规模工程科学计算的各个领域,快速可靠计算多项式函数值在高性能计算中显得尤为必要。本文运用无误差变换理论,从浮点运算代码层面上,分析舍入误差累积效应及其在计算多项式函数值算法中的代数结构和统计特性,进而设计误差可控的补偿数值算法。以此为基础构建了计算单变量和
整型数据排序是一种重要的数据排序问题。提出一个多核异构机群上数据分配模型,使得数据的分配调度能够适应各节点不同的计算能力、通信速率和存储容量,以平衡各个节点的负载;利用整数序列的特性,主节点采取两轮数据分发与接收结果的方法,从节点运用分桶打包方式返回有序整数子序列给主节点,主节点采用桶映射方法将各个有序子序列直接整合成最终有序序列,免去了通信量较大的数据归并操作,实现并行排序过程的通信高效。实验测
我们完成了一个基于GPU集群的离散单元法计算平台原型。该软件平台在颗粒自由堆积模拟和CFD-DEM耦合模拟气固流化中得到应用和验证,GPU发挥了突出的计算性能并且具备良好的可扩展性。
本文介绍了蛋白质定量软件的设计及测试结果.分析结果表明:P-QuantWiz软件在曙光6000的Intel集群部分,测试规模达到2048核,在256核加速比仍在增加.相对P-QuantWiz软件在单CPU运行的结果,PG-QuantWiz软件在单GPU运行的加速比为8.1.PG-QuantWiz软件在16个GPU运行结果相对在单个GPU运行结果,加速比为14.18,效率为89%.
Cloud computing is gradually evolving as a widely used computing platform where many different web services are published and available in cloud data centers.In recent years,there has been an increasi
Space filling curve based on Hilbert Peano function is an excellent linear mapping method and get wide application in many fields.In high performance computing,traditional algorithm for domain decompo
索引表求交是搜索引擎进行查询处理中的一个重要操作。在前期工作中,提出了GPU批次索引表求交框架,在这个框架中,若干查询在CPU端组织成为一个批次,并在GPU上同时处理一个批次内的若干查询任务。这个框架可以有效地利用GPU大规模并行计算的能力,在这个框架中的一个关键步骤就是利用GPU进行并行搜索,这个步骤为整个流程中的瓶颈,因此本文主要集中讨论GPU求交算法中使用的搜索算法。本文同时研究了文档重排后