GPU Warp调度算法优化研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:long060112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着集成电路技术的快速发展,GPU计算能力不断提升,可编程性不断提高,特别是在CUDA等编程环境出现后,GPU通用计算的复杂性大幅降低,其可编程性、功能、性能都显著提升。GPU已逐渐演变成一个新型可编程高性能并行计算资源,在需要大量计算的通用计算领域得到广泛应用。当前在通用计算领域,GPU的计算资源利用率并不高,片外访存等长延迟操作是造成GPU计算资源利用率低的一个重要原因。典型的Warp调度算法并不能较好的隐藏长延迟操作。本文充分分析了各种典型Warp调度算法,其中,轮训调度算法中各个Warp具有相同的优先级,使得各个Warp在相同时间点到达长延迟指令,因此没有多余的Warp来隐藏长延迟;而贪婪调度算法虽然隐藏长延迟指令的能力稍好一些,但是在一定程度上破坏了局部性,降低了缓存命中率,产生更多的片外访存。本文针对上述问题设计了一种基于贪婪算法的两级调度策略,通过两级调度和贪婪调度相结合的方式隐藏长延迟。两级调度就是采用分组的形式来更好地隐藏长延迟操作,调度单元选择一个组进行调度,发射该组中的Warp指令。一旦组内的Warp全部阻塞,就采用轮训调度算法选择其它组进行调度。两级调度策略采用分组的方式防止了所有的Warp因为长延迟操作而同时阻塞,每次只会有一个组发生阻塞,其它组内Warp可以继续调度执行。组内Warp采用贪婪算法调度,避免了各个Warp同时到达长延迟指令,进一步起到了隐藏长延迟操作的效果。经仿真验证,本文设计的基于贪婪算法的两级调度策略与常用的轮训调度算法相比,总体上有7.6%的性能提升,对部分应用程序,该算法有11.2%的性能提升。
其他文献
巴基球是富勒烯的片段,或者说是单壁碳纳米管的端盖。他们是许多重要分子的构建模块。碗烯是由五个稠合的苯环构成的具有C5v对称性的碗状分子,其也可被认为是C60的氢末端片段
高光谱遥感是一种结合了光谱分析与图像处理的多维信息获取技术,除了目标地物的空间信息,高光谱遥感技术还可以获得覆盖范围很广的光谱信息,这就使人们可以不仅通过形态信息,
本翻译实践报告原文本节选自伊弗雷姆·恩孔尼亚(Ephraim Nkonya)所编辑的《退化土地治理经济学——全球可持续发展评估》,译者参与该书籍第三章《防止土地退化行动的制度框架》和第十章《中亚土地退化经济学》的内容翻译。土地退化小到个体农户生存和发展,大到关乎国家和全球生态环境,而中亚的牧场退化也是全球范围的重要问题之一。因此,土地退化问题的探讨与解决在全球内具有重要影响。这本关于土地退化和可持
由于在小分子、大分子的选择氧化中具有优异的催化性能,Ti-MWW分子筛近年来受到人们的广泛关注。然而其研究中还有一些关键科学问题没有得到解决,比如酸处理的确切作用,如何
碳纳米管作为一维纳米材料具有高强度、高模量等特点的同时又具有极低的密度,使之可以被作为聚合物增强的增强填料。同时,碳纳米管易团聚的缺点也成为人们亟待解决的问题之一
本文采用AOA膨胀床组合生物滤池工艺进行生活污水脱氮除磷试验研究,该工艺由“降流式悬浮滤料预处理反硝化滤池(A)—升流式悬浮滤料好氧膨胀床滤池(O)—降流式悬浮滤料脱氮除磷生
光度立体视觉是计算机视觉中的一个重要分支,其根据一组不同光照下物体的二维图像恢复其表面形状。该方法要求输入图像视点与物体相对固定,而光照方向不同,根据图像的灰度信
当前,我国高等教育事业正处于快速发展阶段,各个高校对辅导员队伍的专业性要求也逐步提升。高校辅导员队伍作为管理学生工作的核心力量,在思想政治教育、良好品格塑造和就业、心理指导等方面发挥着举足轻重的作用,这就对大学生的成才立业有着重要的影响。因此,建设高水平、专业化的辅导员队伍就成为保障大学生思想教育、学生事务管理和学生发展指导的必然途径,是我国高校人才培养的重要环节。然而,辅导员队伍专业化建设还存在
目的:观察不同剂量右美托咪定(DEX)对成人喉罩置入时呼气末七氟烷最低肺泡有效浓度(MAC)的影响。方法:选择ASA Ⅰ-Ⅱ级,年龄20-60岁,择期置入喉罩全麻下行上肢骨折手术、疝气修补术、腹腔镜下胆囊切除手术,且术前预计手术时长1-2h的患者75例。将其随机分配进三种盐酸右美托咪定输注方案中(每组 25 例),D0 组(DEX 0μg/kg),D1组(DEX 0.5μg/kg),D2 组(DE
随着电子与通信技术的高速发展,越来越多的电子设备被普及到了人民的日常生活之中,由此带来的还有愈加严重的电磁干扰问题。为保证电子设备可在干扰下正常使用,厂家需要对其