众核结构上LU分解算法负载均衡的研究

来源 :2009中国计算机大会 | 被引量 : 0次 | 上传用户:Tiramisu_smile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机体系结构的发展,众核体系结构越来越成为科研人员关注的焦点。众核技术的发展要求能够利用片上大规模的并行资源,高效加速应用程序的性能。本文针对科学计算中的经典程序LU分解进行了深入研究。通过仔细分析算法,指出了2D scatter算法的负载不均衡问题。我们实现了基于比特翻转异或的Bit Reverse XOR(BRX)算法,提出了一个负载均衡策略算法DABP。为了评估三种负载均衡算法的效果,提出了两种不同的评价负载均衡的函数。试验结果表明,在使用64个处理嚣核的情况下,DABP算法加速比达到46,是3个算法中性能最好的。
其他文献
一种基于问题知识库的软件静态分析方法,重点描述问题知识库的形成.表示、构建及应用。该方法对隐藏代码问题发现、分析,通过构造AST检查器和路径检查器,形成包括R(Rule)、D(Defect)、M(Metric)的规则集,应用于静态分析、提高静态分析准确度。
引入U-正交变换到图像无损编码应用中,研究U-正交矩阵的基本三角可逆矩阵(TERM)的分解与单行基本可逆矩阵(SERM)的分解.一个N阶U-正交矩阵能分解为8个TERBM与置换矩阵的积,且这种分解由N,-1个自由变量确定,通过搜索自由变量的区间可以找到TERM的局部近似最优分解形式.用行交换的方法搜索U-正交矩阵的SERM分解,在这种情况下,8×8的矩阵最多只有40320神可能的SERM分解,用穷
本文提出了一种基于四维医学图像计算左心室应力应变的新方法.首先针对SPECT图像建立左心室心动周期内7个相位的内外壁NURBS表面模型:其次,将NURBS模型的参数空间坐标规范化,对前后时刻模型的位移进行拟合得到连续的位移场;接着,通过规范化坐标来转化中介计算模型上任意点的位移;最后通过位移变化计算相应的应变和应力。该方法将空间位置与位移场一一对应起来,提高了位移计算的准确性,并克服了传统有限元搜
由于Deep Web中包舍有大量结构良好的数据资源,因此如何集成Deep Web中的数据资源成为当前研究热点.其中,准确地发现并识别特定领域的Deep、Web数据源是高效获取Deep Web中数据信息的一个关键问题.通过分析Deep Web数据源特点,本文提出了一种面向领域的Deep Web数据源发现与识别方法.在发现阶段,通过对由爬虫获得的表单使用机器学习算法,结合启发式规则对表单进行二元分类,
分布式事件系统中,系统的性能和系统中客户端的部署情况密切相关.不合理的部署会使系统内的路由节点承受较大的负载,进而增加消息通讯的时延。现有的优化方法通常都是将系统中的客户端简单的分为消息发布者和消息订阅者,并通过相似订阅者的聚集来提高系统的性能。而在实际应用中,客户端的角色往往二者兼具,可以包含多个发布以及多个订阅。订阅者聚集无法处理客体之间存在的非常复杂的消息通讯和依赖关系,具有明显的局限性。本
Internet正逐渐演变为一个服务的网络,为了更加有效地保障基于服务的Internet应用,对Internet服务的管理提出了强烈的需求。提出了一种通过分析服务组合的历史数据,得出服务之间的协作关系,并利用这一关系进行服务管理的方法。其基本思想是:利用Intcrnet服务组合构造应用的历史数据,根据规则建立无向加权的服务协作网络;在此网络上,运用复杂网络分析中的中心度和加权度等概念,定义了服务的
随着分布式系统在关键应用领域的不断拓展,监控机制成为提高其可靠性和可信性的重要手段。然而,现有监于只关注监控效果而未考虑监控的性能损失,通常会对应用系统造成较大性能影响。本文提出了一种粒度可变的监控机制,通过优化监控探针的空间分布和监控数据的生成时机,达到减轻监控性能影响的目的。在此基础上建立了粒度可变的监控优化模型,基于虚拟计算环境(iVCE)实现了分布式监控原型系统,验证了本文方法的可行性,并
在多频道P2P视频直播系统中,观看同一频道的所有节点构成一个覆盖网络.当一个节点同时加入多个频道时,会出现多个频道的覆盖网络相互重叠,因此需要将系统网络带宽在多覆盖网络之间进行合理的分配.本文首先分析了多P2P覆盖网络之间的节点带宽竞争问题,以及网络拓扑和节点行为对带宽分配的影响,在此基础上,提出一种基于多P2P覆盖网络的带宽分配方法.该方法综合多P2P覆盖网络中的带宽分配、伙伴节点选择以及节点数
利用虚拟机技术,分布式应用可以被部署到多个虚拟机环境中,而这些虚拟机有可能运行在同一个物理机上,这种情形需要提供一种高效的同一物理机上虚拟机之间的通信(inter-VM通信)机制,并同时确保透明性和安全性。本文中我们实现了一种高效的inter-VM通信机制MemChannel,同时确保对用户层应用和网络协议栈的透明性,以及同一物理机上虚拟机之间的安全隔离性。Memchannel在参与通信的虚拟机之
在百万亿次超级计算机深腾7000上进行了80×80×50和160×160×100两种网格规模,基于Aztec库和PETSc库的天体大规模数值模拟软件的性能和可扩展性测试,并对性能测试结果进行了深入分析,详细解释了某些情况下出现超线性加速比的原因。实验结果表明,程序在1024个处理器核时,每种测试组合仍具有加速比的提升,其中某些测试组合在2048核上仍具有加速比。在测试过程中,我们还观察到一个比较有