基于GPU的多波前稀疏Cholesky分解优化方法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ruyudeishui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大量的科学计算和工程应用中,稀疏线性方程组的求解是一个特别重要的部分,Cholesky分解因具有很高的性能且计算结果精确常用来分解大的稀疏线性方程组。过去,为了减少总的计算时间,有很多科研人员利用CPU集群分解稀疏矩阵。如今,随着图形处理器(Graphics Processing Unit,GPU)计算能力的快速提升,已有采用GPU加速稀疏线性方程组求解的方案。为了提升性能,这些方案把计算量大的操作分配给GPU处理,但因GPU编程模式的原因,这些方案往往无法充分利用GPU的计算资源。针对目前GPU处理稀疏线性方程组存在的问题,提出并实现了基于GPU的多波前稀疏Cholesky分解方法。多波前方法将一个大的稀疏矩阵分解为一系列小的稠密矩阵,然后再对这些稠密矩阵进行处理,在每个稠密矩阵的分解过程中,矩阵与矩阵的乘法(General Matrix-matrix Multiplication,GEMM)运算占据了绝大部分的计算时间,而且多个GEMM运算很难在GPU上并行执行,为了提升程序的性能,从三个角度对程序进行了优化。多任务队列方案用于在GPU的内核函数中同时执行多个GEMM操作,多个GEMM操作的计算时间以及数据传输的开销都能得到隐藏,减少了总的计算时间;为了使每个GEMM操作的处理时间都是最少的,设定一个阈值来决定GEMM操作的处理平台:如果某个GEMM操作涉及的计算量比该阈值大,就将其分配给GPU处理,否则分配给CPU处理;在GPU上利用多个线程块处理一个GEMM运算,同时,优化算法的执行流程来提升GEMM操作的性能。基于Linux操作系统和CUDA编程环境,采用4种测试方案在6组测试数据上进行了性能对比。实验结果表明:基于GPU的多波前稀疏Cholesky分解方法,与CPU实现的多线程Cholesky分解相比,加速比达到了3.15倍;同时,与现有的GPU加速方案相比,加速比达到了1.98倍。3种优化措施被应用于电力系统潮流计算中后,程序的性能也得到了明显的提升。
其他文献
乔托抛弃了古老的拜占庭传统绘画观念,运用缩短法和明暗阴影重新发现了在平面中造成景深视觉的绘画方法。乔托的这一发现改变了当时整个绘画的概念,揭开了艺术史上崭新的一章
父母是孩子的第一任教师,父母对其成长起着不同的作用,尤其是父亲在参与幼儿的户外活动中具有截然不同于母亲的独特性和价值。男性自身的角色特点决定了父亲在参与户外活动时,父亲往往会与孩子产生相对剧烈的身体接触,鼓励孩子积极的参与其中,并以其固有的男性特征如坚毅、果断、深沉、独立、进取等影响着孩子的成长,这对孩子身体素质的发展,冒险精神的培养都有很大的帮助。因此,提高父亲参与幼儿户外活动的质量与水平,不仅
一、科学素质的内容  科学素质是以科学知识为基础,进而形成能够适应人类社会发展的各种品质和能力,它包括科学知识、科学能力、科学方法、科技品质、科技意识五个要素。教师的任务是,用科学知识奠定学生科学素质的基础,培养学生的科学能力,促使学生掌握科学方法,养成实事求是、严肃认真的科学态度以及善于质疑、勇于探索、刚毅顽强的科技品质,初步形成科学意识。  21世纪的基础教育和素质教育是以促进学生全面发展为基
清末民初学生演剧的研究,以上海圣约翰发端、南洋公学汉语首演校园剧与天津南开学生演剧两条南北脉络为主要研究路径。其中,1901年上海南洋公学汉语首演校园剧已初步被证实其戏剧史价值。以此为鉴,关照1909年发生于北方的天津南开学生演剧实践,探析其发端源头,发展脉络,作为整体性的剧场艺术的戏剧学价值,意义重大。南开学生演剧的发轫来源于多方力量共同促成,帝国主义与封建残余的压迫使得有识之士意识到启蒙民智的
摘 要:工匠精神是一种精益求精、追求完美的精神,是职业技能型人才所追求和应具备的职业精神。职业院校教育的根本就是为社会打造专业技术工匠。要培养具有工匠精神的学生就必须拥有工匠型教师。因此,培养工匠型教师是职业院校青年教师培养工作的重要内容。本文以“导师制”为依托,以期通过岗前培训、教学基本功历练、顶岗实习、参加信息化教学大赛、申报课题、撰写论文等青年教师“工匠精神”培养途径,达到提升青年教师综合素