面向投机并行的点点同步算法

来源 :2008年全国高性能计算机学术年会 | 被引量 : 0次 | 上传用户:blacksi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线程级投机并行可以利用多核系统的计算能力提高应用程序的性能。串行程序被分割为多个线程并行执行,通过运行时系统保证对包含数据依赖代码按照其串行次序执行。投机成功时,可以极大增加系统并发度,但是投机失败时开销较大。对于一类发生次数不多的数据依赖,采用线程间同步机制,可以避免投机失败,从而减少开销。本文提出了一种把循环转换为线程投机执行的框架LLSM。LLSM可以把常规编译方法难以并行的循环切割转换为多线程并行执行。为保证准确性,在并行执行中保持具有数据依赖的指令按照串行次序执行。通过执行中缓冲对数据的写请求,同时在提交这些写请求时,各线程间保持循环迭代间的依赖关系,这样保持了串行程序的W-W和R-W依赖关系。基于LLSM,提出了一种点点同步算法,在具有W-R数据依赖关系的线程间传递依赖数据,以避免投机执行失败。对于所选Spec测试程序,投机并行可以达到21%的性能增长。
其他文献
二叉树模型是期权定价中常用的一种数值计算方法,但当计算精度要求比较高的时候,需要时间步长足够小,从而大大增加计算时间。本文从尽量减少通信开销的角度出发,提出一种期权定价的并行二叉树算法,并利用MPI消息传递接口进行了并行算法实现。分析和实验结果表明,对于具有较大问题规模的二叉树模型,能够较为有效地降低运行时间。
新LBM模型可以处理速度0.7马赫以下的可压缩流体问题,并且具有较好的数值稳定性。本文通过对三维流动问题的计算研究,证实了该新LBM方法的正确性,对计算程序并行性能深入研究的基础上,提出了基于cache的性能优化,经过程序性能测试证明该方法具有较好并行计算效率,并具有很好的可扩展性。
最近几年,生命科学、激光技术、微电子 技术都取得了重大进展,反观曾经高速飞跃的个人计算机,速度和效率都有停滞不前的的现象。本文结合生命科学和脑神经学对智能的产生的认识,用信息变换和传播的观点,提出一个崭新的仿生电脑的模型,并将仿生电脑硬件与冯·诺曼机器和人工神经网络模型作比较,也将生物智能产生的模式与软件编程的模式作比较,希望能在这基础上,发现新一代的高效能电脑发展的方向。
存储服务器是机群系统中的重要组成部分。随着硬件的发展,集中式的存储服务器可以提供更大的容量和带宽,可以同时为更多的高性能计算应用提供存储服务。然而,每个应用具有不同的负载特征,不同的存储部件以及本地文件系统也具有不同的特征,单一的存储模式难以为多样的I/O负载提供高效的存储。因此如何根据负载特征及存储部件的特征,将数据放置在合适的存储部件上成为一个关键问题。本文提出了并且在United-FS文件系
计算进入了多核时代,处理器的发展不再由更快的主频带动,而是依靠增加片上的多个核心。但是,对于高性能应用来说,多核平台的并行处理由于缺少适合的并行程序开发工具还处于初始阶段,对应用的优化需要对底层线程结构的深入了解和正确使用。本文从海量数据流应用的特点出发,提出了三级流水多线程模型,它的线程同步机制没有竞争,并且实现了不同特征数据流的差别服务。在遥感图像处理和骨干网网络入侵检测系统设计中,应用了海量
以双核、四核处理器为代表的多核计算平台正在逐步成为服务器的主流架构,在这种架构下传统的遥感图像并行处理算法的性能问题成为随之而来的问题。本文通过在多核服务器平台和单核架构的集群平台上对于并行卫星多光谱图像自动配准算法进行比较研究和性能测试,分析和阐述了多核对高性能计算的影响。
随着多核处理器的发展,片外访存带宽逐渐成为影响程序性能的主要因素。为了解决这个问题,很多研究工作通过提高cache利用率来降低程序执行过程中的片外访存数量。本文提出了一种任务调度算法来解决同时执行的多个独立任务竞争片外访存带宽的问题。该调度算法根据程序的访存阶段调度同时执行的多个独立任务,避免了“爆发式”的片外访存请求,改善了片外 访存带宽的利用率,提高了系统吞吐率。本文基于函数调用和循环体执行轨
在计算机安全领域,如何提高RSA算法的速度一直是研究的热点。近年来,随着多核技术与并行技术的发展,程序员可以通过使用MPI、OpenMP和Pthreads等并行技术来提高程序的效率。本文基于以上背景,在理解传统RSA算法原理的基础上,充分挖掘RSA算法的并行性,再结合MPI、OpenMP和Pthreads等并行技术和利用OpenSSL软件包,设计、实现了RSA并行算法,并取得了明显的效果。最后通过
局部一维显式离散格式是构造高维流体力学计算格式的常用计算方法。本文给出了一个并行自适应显式时间积分算法,用于实现局部一维显式离散格式的并行自适应计算。基于JASMIN框架,以局部一维FCT格式为例实现该算法,形成一个用于模拟多介质流体力学Richtmyer-Meshkov不稳定性的并行自适应数值模拟程序。数值实验表明,该程序具有很好的并行可扩展性。
高性能并行计算的唯一目的就是追求尽可能高的极限性能,这一尝试包括使用最先进的超级计算机,最快的并行算法,也包括选择更合适的编程模型与最大化程序性能的优化方法。现代网络支持RDMA以及PGAS语言,如UPC,支持远端CPU无意识的单边通信,这些特性促进了高效重叠通信与计算的优化,可以显著提高通信受限程序的性能。但是通常传统并行程序,主要是MPI程序,多使用大块通信和计算,这样重叠优化的空间很小,我们