OpenBLAS龙芯3A CPU的高性能BLAS库

来源 :2011年全国高性能计算学术年会(HPC china2011) | 被引量 : 0次 | 上传用户:xp968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  BLAS是科学计算中最基础的数学库之一,各CPU厂商都推出了针对各自CPU的优化的BLAS库。龙芯CPU是中科院计算所自主研制的通用CPU,目前已推出了龙芯3号系列。本文介绍了我们发起的基于GotoBLAS 2-1.13 BSD版的开源项目OpenBLAS,针对龙芯3A CPU的优化工作。在BLAS 3级函数的单线程优化上,运用了分块,手工核心汇编,使用龙芯3号128 bits访存指令和预取指令,汇编指令重排等技术。BLAS 3级函数平均性能高于GotoBLAS和ATLAS 75%和17%,其中,双精度函数高于GotoBLAS和ATLAS 103%和36%。在BLAS 3级函数并行化方面,采用数据缓冲区交错布局等技术,减少多线程对共享L2 Cache的争抢。 OpenBLAS BLAS 3级函数的4线程并行加速比达到3.47。 4线程BLAS 3级函数平均性能高于GotoBLAS和ATLAS 69%和34%,其中,双精度函数高于GotoBLAS和ATLAS 89%和55%。
其他文献
  介绍了我们为微型CPT原子频标的研制的一种微波电路:利用阶跃恢复二极管(SRD)实现3.4 GHz的微波信号源,其输出频率3.4 GHz、微波功率>-10 dBm,电路板面积20mm×10mm、功耗
  概述了发展甲醇燃料的重要意义,作为豫南重要的煤化工基地之一,中平能化蓝天化工股份有限公司多年来致力于甲醇燃料开发工作,综述了公司发展甲醇燃料的历程,并对甲醇燃料产品
  探讨了甲醇作为交通工具燃料的可能,甲醇用于交通工具燃料已有多年历史,世界上也有多个国家尝试之,品种有M15、M85、M100,他们需要经石化厂混合而成并需加入添加剂,故难以推
  介绍了DR型低阻力、节能双层甲醇合成塔系统的开车及实际运行情况以及高压醇烷化系统的开车及实际运行情况。
  本文报告600MW超临界循环流化床锅炉炉膛悬吊屏受热面气固流动和传热特性数值模拟研究结果。论文采用Fluent软件对炉膛的气固流动进行数值模拟得到悬吊屏壁面流动参数,在
  分析了循环流化床锅炉甩负荷试验的特点。针对东方型300MW循环流化床锅炉,采用维持锅炉燃烧稳定方式进行了50%甩负荷试验,采用锅炉压火方式进行了100%甩负荷试验。结果表明,采
  在小型鼓泡流化床试验台上研究了宽筛分(高斯分布、均匀分布和二元分布)物料的临界流化速度Umf在室温及200-600℃范围内的变化规律,并得到结论:比表面积平均粒径相同的两种
  随着现代火力发电厂的单机容量越来越大,锅炉的高度也越来越高,而汽轮机的高度则保持不变,因此,机组的主蒸汽管道、再热蒸汽管道也越来越长。蒸汽管道的增加带来了管道投资的
  结合某厂200MW循环流化床锅炉设计煤种及周边煤源情况进行了取样和分析。将发热量、挥发分、灰分、硫分、水分、燃料粒径分布等技术指标作为主要燃料优选标准,并最终根据
  随着信息技术的发展和数据获取手段的增多,空间数据规模呈爆炸性增长,达到了PB 级甚至EB 级规模。而 且随着互联网技术的发展,大量并发用户可以方便地访问空间信息服务。海