论文部分内容阅读
深度学习技术在图像目标检测识别、语音识别等众多领域取得了颠覆传统方法的成果。然而智能的本质是计算,高吞吐率深度学习模型的应用依赖强算力支持。开发和优化体系结构平台的计算效能,提升智能处理能力是推动应用进步的最重要因素。多核和众核构架是高吞吐率机器学习推理应用的有效平台,但除了通用x86及GPU等平台外,还有很多多核和众核体系结构与智能计算的适配技术尚待研究。其中国产飞腾处理器可通过层级化的扩展设计为多核(64核以下)或众核(64核以上)构架,承担多核主处理器或领域众核加速器的作用。当前的飞腾2000+64核高性能处理器,可以作为研究验证多/众核平台智能优化技术的良好选择。此外基于VLIW架构的多核DSP芯片能效较高,也是智能计算的良好平台。所以本文瞄准用于高吞吐率国产自主飞腾处理器及低功耗多核DSP芯片,研究其上的智能处理适配及算法优化技术,为新一代国产自主智能计算系统探索技术途径。本文首先研究了飞腾平台无框架深度学习应用的推理优化技术。全面剖析了飞腾芯片硬件结构和可用并行资源,结合深度学习推理算法特征,提出了多个理论有效的优化技术,然后基于多个典型应用评估了相关优化技术的有效性。其中基于RNNs-LSTM模型的应用优化后,性能达到未优化状态的10.2倍,且平台整体性能达到了主流高性能x86平台的2.9倍。本文接着研究了飞腾平台带框架深度学习应用的推理优化技术,相关实验结果表明应用性能得到大幅提升。本文最后基于当前主流多核DSP芯片开展了VLIW架构下深度学习推理优化研究,同样全面分析了其硬件结构和并行资源,提出了多个和平台应用相关的优化技术,相关的实验结果表明DSP芯片的能效达到了高性能x86芯片的7.79倍,嵌入式ARM芯片的3.56倍。