面向申威平台的LLVM自动向量化移植与优化

来源 :郑州大学 | 被引量 : 0次 | 上传用户:xinzhichaoniao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过自动向量化编译技术自动生成向量程序,以有效地利用微处理器底层SIMD硬件提升程序的执行性能,已成为编译器研究的一个重要方向。然而,由于技术路线不同,以及各种微处理器的SIMD扩展指令集的巨大差异,自动向量化要针对具体的SIMD扩展部件改变算法、调整参数才能适配目标SIMD硬件特性。此外,在自动向量化编译的实现过程中,循环中的控制流结构、基本块中的同构语句数、打包方式的随机性等因素,也需要面向具体处理器体系结构与SIMD扩展指令集的特点开展针对性的优化研究,以充分发掘出程序中潜在的向量并行性。本文的主要工作和创新点有:(1)LLVM的自动向量化技术研究。LLVM开源编译器中已初步实现了循环级与基本块级两种方式的自动向量化方法,本文从合法性分析、向量发掘、向量代码生成三个方面分别梳理了LLVM编译器自动向量化模块中循环级与基本块级的代码实现,构建了适用于申威平台的LLVM自动向量化流程,为开展自动向量化功能模块的移植与优化奠定了基础。(2)循环级向量化的移植与优化。由于向量长度及指令集功能的差异,面向申威平台的自动向量化过程与开源LLVM存在着较多差异,本文从向量寄存器长度以及向量化信息两方面,进行面向申威平台的循环级向量化的移植工作。针对申威平台不支持掩码指令的问题,提出了一种基于控制流分析的掩码指令转换算法,TSVC标准测试集测试表明算法改进后控制流向量化识别率提升48%,平均加速比提升60%;针对控制流向量化方法的单一性问题,提出了一种利用select向量指令增强控制流向量化的phi节点优化算法,优化后TSVC测试集中的s441测试用例加速比达2.4。(3)基本块级向量化的移植与优化。LLVM中现有的基本块级向量化方法的实现不适用于申威平台,为此本文从同构语句数约束以及向量指令代价评估两方面,进行面向申威平台的基本块级向量化的移植工作。针对基本块级向量化打包同构语句的随机性导致向量代码收益不佳的问题,提出了一种基于向量指令代价评估的打包算法,算法改进后SPEC标准测试集中的453.povray测试用例加速比提升17.1%;针对LLVM中向量化发掘能力不足的问题,提出了一种结合迭代内与迭代间向量化发掘的混合优化方法,优化后典型示例程序的平均加速比达2.04。本文工作基于LLVM-7.0.0版本,已在申威1621处理器上予以实现。通过SPEC CPU2006与TSVC标准测试集的整体测试,验证了移植与优化工作的正确性。SPEC CPU2006标准测试集的定点程序平均性能提升2.7%,浮点程序平均性能提升18.2%,整体平均性能提升11.3%,矩阵乘测试用例平均加速比达7.2,验证了移植与优化工作的有效性。本文相关成果已应用于申威平台,有效地利用处理器内的向量指令实现了SIMD扩展部件的性能提升。
其他文献
花生(Arachis hypogaea L.)作为一种重要的经济作物,其生长过程遭受着各种病原菌的侵害。花生网斑病是由致病真菌Phoma arachidicola引起的一种重要叶部病害,最终导致花生减产。为了挖掘花生网斑病抗性资源,揭示花生网斑病抗性机理,本研究首先对花生自然群体进行了室内接种鉴定,利用全基因组关联分析技术挖掘到一批花生网斑病抗性关联位点;通过显微观察对鉴定出的抗性材料不同类型抗病
棉花(Gossypium hirsutum L.)是一种重要的经济作物,在世界范围内有着广泛种植。我国是棉花生产大国,2020年我国棉花总产量占比世界棉花总产量的23.8%,仅次于印度25.4%位列世界第二。近年来,由于棉花生产的特殊性,农资成本居高不下,导致棉农植棉积极性下降,棉花种植面积逐年减少。为提高我国棉花的国际竞争力,降低棉花生产过程中的人工成本,保障棉农收益,开发机械化耕种采收模式并推
为满足交通运输,我国公路网也在不断完善,同时导致道路养护问题也更加严峻;根据交通运输部对道路养护统计表明车辙是沥青路面最常见的破坏形式,每年需要投入大量养护资金进行道路车辙修补,因此研究车辙生成的主要影响因素是非常有必要的。在夏季高温环境中,道路非常容易产生车辙破坏,因此,研究高温时路面结构温度分布情况很有必要,并且根据道路投入使用后的环境、荷载情况对道路的车辙进行分析、预估,能够为沥青路面的养护
研究背景肝脏是人体功能最广泛的器官之一,是人体多项生理机能的中央枢纽,在代谢、解毒、免疫等方方面面不可或缺。随着社会的发展,肝脏疾病的发病率逐年攀升,已经成为世界各地人民生命健康的一大威胁。但肝脏的异质性使得人们对于肝脏疾病确切的分子机制还不甚明了,治疗手段也十分欠缺。研究目的当前全球范围内已经开展了很多关于肝脏的单细胞测序方面的研究,积累了非常丰富的数据资源,为研究人员的交流学习提供了便利。本研
随着物联网技术以及智能终端的发展,室内定位技术已经成为当前国内外的重点研究课题。2019年1月,蓝牙技术联盟宣布新增寻向定位技术,与基于蓝牙接收信号强度的定位技术相比,蓝牙定位精度可提升至亚米级,蓝牙寻向技术具有低功耗、成本中等、精度高、便携性强等诸多优点,已成为当前室内定位领域的研究热点。基于上述背景,本文采用蓝牙寻向技术中的到达角寻向方式进行蓝牙定位系统的研究与设计。研究内容如下:首先,介绍了
盾构机是现代地铁施工中常用的大型隧道掘进装备,集成了刀盘切削、推进控制、管片拼装、螺旋输送等功能。随着国内地下城市空间建设的快速发展,盾构机的市场需求越来越大。在提高盾构机的生产制造水平的同时,一些关键性的技术还需要进一步的研究突破。本文针对盾构机推进系统的发展要求,结合目前各研究方法的发展现状,对盾构机推进系统的机构建模求解方法、液压系统的关键控制技术等进行了研究。主要研究内容包括:1、根据盾构
家蚕是鳞翅目模式生物,其精子具有二型性,即有核精子和无核精子。在受精过程中,有核精子使卵受精并发育成子代个体,而无核精子不能与卵结合,先于有核精子进入雌蛾体内,在有核精子受精过程中起辅助作用。目前无核精子发生及成熟的具体分子机制尚不清楚。本论文以家蚕为研究对象,形态学观察精子的发生和成熟过程,确定成熟有核精子束和无核精子束分化的具体时期;同时施加外源蜕皮激素和低温处理,研究激素和温度对无核精子发育
图像滤波算法能够在尽量不影响图像细节特征的前提下,消除或抑制图像中的噪声,在图像处理领域具有关键作用。FT-M7002作为一款国产的具有向量多核体系结构的高性能DSP,适用于图像处理领域,但目前面向该处理器所进行的图像处理算法库的开发和优化研究较少,缺乏相应的函数算法库的支持。本文开展面向FT-M7002处理器图像滤波算法的研究与实现,并结合其体系结构特征对该算法进行并行优化,能够填补FT-M70
猪繁殖与呼吸综合征(Porcine reproductive and respiratory syndrome,PRRS)是由PRRS病毒(Porcine reproductive and respiratory syndrome virus,PRRSV)引发的传染病,该病致使猪群发生严重的免疫抑制性呼吸道疾病和继发微生物感染,给全球养猪业带来了严重的经济损失。由于PRRSV具有高变性和抗体依赖增
目的:研究新鱼腥草素钠(Sodium new houttuyfonate,SNH)联合顺铂(Cisplatin,CDDP)对非小细胞肺癌A549细胞增殖的抑制作用,探讨两药联用抗肺癌的可能机制。采用薄膜分散法制备新鱼腥草素钠与顺铂共载脂质体(Sodium new houttuyfonate-Cisplatin-Liposomes,SNH-CDDP-Lp)并进行药代动力学考察,为临床非小细胞肺癌的联