一类基于迭代空间条块的并行有限差分Stencil算法

来源 :2010年全国高性能计算学术年会(HPC china2010) | 被引量 : 0次 | 上传用户:cx77287728cx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  高效的并行有限差分Stencil 算法对于求解大型线性方程组是十分重要的。针对并行有限差分Stencil 算法中数据局部性差、同步和通信开销大的问题。首先改进传统有限差分Stencil 算法,提出了多层对称遍历有限差分 Stencil 算法。然后给出了以迭代空间条块序作为执行序的串行算法,通过沿时间轴对迭代空间进行时滞划分,在不改 变迭代算法性质的同时,对迭代空间条块内部多次迭代计算,提高算法的数据局部性。最后提出一种基于迭代空间条 块的并行算法,该算法利用改进的多面体模型对迭代空间网格划分,并通过网格条块重排序减少了Cache 缺失率、通信启动和同步次数。理论分析和实验结果表明,该并行模型比传统的区域分解方法和红黑排序并行算法具有更好的数据局部性,并行效率和可扩展性。
其他文献
运行状态的实时监控是对超级计算机进行高效管理的基础.目前的状态监控都是作为作业调度及资 源管理的一个子系统,仅从软件监控的角度提供诸如节点、网络、IO 等部件的负载信息,缺乏更深层次的 状态数据.而随系统规模的扩大,系统包含的存储、通信、计算、散热、电源、监控等部件的数量急剧上 升,由此而来的系统稳定性问题需要多层次、更加全面的状态监控方法,以实现在线故障诊断、失效预测 能力.为了满足这种需求,结
AMR-FDTD 算法将AMR 方法与FDTD 方法相结合,仅在电磁场能量梯度较大区域细化 网格,通过网格细化或粗化动态调整计算资源,计算效率高.针对大规模电磁计算,基于SAMRAI,提出了一种新的AMR-FDTD 算法的并行求解方法.该方法基于分布式块结构的多级自适应网格,采用局部时间细化,以网格单元为最小计算单位,以网格块为数据分布和负载平衡的最小单位.通 过将多级自适应网格中各网格层上的网格
以超算中心为代表的高性能计算机的规模应用,其功率密 度高,且长期运行在高负荷率条件下,耗能极高。本文研究了上海 超算中心的“曙光500A”和“曙光400A”超算系统的基础设施设 计、运营和能耗结构,对各子系统的能效进行了分析,研究其PUE 构成和影响,以及主机运算性能能效PPW,并提出超算中心整体运 算性能能效SCCE 评价超算中心整体能效。上海超算中心两套不同系 统能效对比分析,对超级计算或高性
近年来,软件的网络化、服务化使用成为一种新的趋势。在虚拟化软件按需流式加载的执行过程中,程序会因请求缺失的数据而被阻塞直至数据被下载过来,从而影响用户的体验。针对这一问题提出了一种基 于N-Gram 预测模型和数据挖掘技术的面向软件流式加载的预取机制,通过收集用户使用软件所产生的软件 文件访问日志,进行数据挖掘分析,来动态更新、完善预取规则,然后根据最合理的预取规则进行预取。实 验结果表明,对于各
本文首先介绍多核处理器的发展,多核处理器分为同构多核处理器和异构多核处理器,并简要介绍 过去几种常见的异构多核处理器,如TI的OMAP多媒体处理器、Cell 处理器、特别是由NVIDIA 公司推 出的支持CUDA 架构的GPU,使其作为CPU的协处理器,用于并行计算,解放了CPU 繁重的计算任务。接下来介绍集群的发展,集群也分为同构与异构两种,并重点介绍异构多核集群的发展,如美国橡 树岭国家实验室
随着以数据为中心的嵌入式移动计算和多媒体应用的兴起,以应用为中心功能可重构的系统设计方法将成为未来处理器研究的重要方向.FFT 作为这类应用中最为重要的计算 类型之一,为专用系统结构设计提出了新要求.本文提出了一种适合加速FFT 运算的流处 理器架构.通过分离计算流和数据流,在简化计算部件设计和实现开销的同时也增加了系 统模块的可重用性.面对加速复杂应用这一问题,基于硬件描述语言(HDL)的传统实
字符串匹配是计算科学中研究最广泛的问题之一,已成为信息检索和生物计算等领 域的核心操作.然而受限于CPU的计算能力和存储器访问带宽,传统的串行字符串匹配算 法难以进一步提升性能.GPU 在计算能力和存储器访问带宽上有很大提升,已经在很多应 用上取得了卓越成效.gAC 作为一种基于GPU的并行AC 算法,针对GPU的SIMT (Single-Instruction Multiple-Thread)以
在网格社区环境下,用户数据可以分布在全网格范围内的各个节点,本文针对目前缺乏社区层的全局 数据管理系统的问题,从云存储的角度出发,设计并实现了一种适应于CNGrid的支持全局统一视图和跨域操 作的网格数据管理系统。其中通过文件虚拟路径的设计,解决了对社区文件的定位和跨域操作的问题。该系统 屏蔽了底层协议和操作的细节,极大地提高了用户对分布在全网格中数据的管理效率。
MSD加法器是三值光学计算机的一个重要运算部件。利用MSD ( M odified Signed-Digit )加法计算 中具有无进位过程的特点,理论上构造三值光学计算机MSD 加法器,可使光学计算机的“三值”和“数 据位数众多”两大优势在数值计算中充分发挥作用。在已建立的三值光学计算机MSD 加法器的理论和结 构的基础上,鉴于实现MSD 加法的三值光学计算机千位实验系统还在建设中,本文用C++程
大规模稀疏矩阵向量乘和稀疏矩阵间乘法在科学研究和实际工程中广为应用,但传统的稀疏矩阵存 储格式或者会在运算中带来间接引用,以致降低Cache 命中率,严重影响程序的执行效率,或者需要已知矩阵中 非零元的分布,不易广泛应用。本文从提高Cache 命中率和Cache 中数据的局部性出发,提出一种带索引数组的 四叉树存储结构。采用这种数据结构,稀疏矩阵的乘法就可以被分解为一个个与Cache 容量相适应的