面向多核众核平台的深度学习推理加速技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:yanjiawei2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习技术在图像目标检测识别、语音识别等众多领域取得了颠覆传统方法的成果。然而智能的本质是计算,高吞吐率深度学习模型的应用依赖强算力支持。开发和优化体系结构平台的计算效能,提升智能处理能力是推动应用进步的最重要因素。多核和众核构架是高吞吐率机器学习推理应用的有效平台,但除了通用x86及GPU等平台外,还有很多多核和众核体系结构与智能计算的适配技术尚待研究。其中国产飞腾处理器可通过层级化的扩展设计为多核(64核以下)或众核(64核以上)构架,承担多核主处理器或领域众核加速器的作用。当前的飞腾2000+64核高性能处理器,可以作为研究验证多/众核平台智能优化技术的良好选择。此外基于VLIW架构的多核DSP芯片能效较高,也是智能计算的良好平台。所以本文瞄准用于高吞吐率国产自主飞腾处理器及低功耗多核DSP芯片,研究其上的智能处理适配及算法优化技术,为新一代国产自主智能计算系统探索技术途径。本文首先研究了飞腾平台无框架深度学习应用的推理优化技术。全面剖析了飞腾芯片硬件结构和可用并行资源,结合深度学习推理算法特征,提出了多个理论有效的优化技术,然后基于多个典型应用评估了相关优化技术的有效性。其中基于RNNs-LSTM模型的应用优化后,性能达到未优化状态的10.2倍,且平台整体性能达到了主流高性能x86平台的2.9倍。本文接着研究了飞腾平台带框架深度学习应用的推理优化技术,相关实验结果表明应用性能得到大幅提升。本文最后基于当前主流多核DSP芯片开展了VLIW架构下深度学习推理优化研究,同样全面分析了其硬件结构和并行资源,提出了多个和平台应用相关的优化技术,相关的实验结果表明DSP芯片的能效达到了高性能x86芯片的7.79倍,嵌入式ARM芯片的3.56倍。
其他文献
<正>生物信息学方法在生物信息分析中的应用研究为揭示生命现象的本质提供了重要的理论依据。我们利用小波变换、傅立叶变换和newZ-Curve等方法研究了基因序列的三周期特征和
色彩作为一种供人们欣赏的美感存在着,它是每个动画中必不可少的创作形式,是不以人的意志为转移的,是一种主观意向。设计师在创作中,一定要融入自己的思想和感情。动画是静的
介绍了马氏体不锈钢1Cr13Mo叶片补焊工艺,根据厂里要求修复后要达到的效果、马氏体不锈钢的特性、叶片磨损程度和工期要求合理制定焊接修复工艺,圆满完成叶片修复工作,目前机
  通过对不同熬煮条件下猪肉汤中游离氨基酸、核苷酸、肽分子量分布、维生素B1、嘌呤含量的测定,探究熬煮条件对猪肉汤中营养成分的影响.结果显示,游离氨基酸在96℃温度下
<正>东白山位于诸暨邑东。太白之巅为会稽山脉最高峰,相传曾为葛洪当年修炼之地,同时有“并非仙境,胜似仙境”之说。经申报,2003年12月已被列为省级自然保护区。历史遗产是人
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算应用中常见的算法之一。因为稀疏矩阵中非零元排布不规则,SpMV算法的高效实现十分困难,通常需要针对