神经网络加速器的计算架构及存储优化技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:zj1280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,通用处理器的性能增长逐渐达到瓶颈,难以应对不断涌现的新兴应用场景需求。神经网络算法的蓬勃发展为新型计算系统架构的探索提供了广阔空间。“通用处理器+神经网络加速器”的异构计算系统,和以神经网络加速器为中心的人工智能计算系统,分别为通用计算和人工智能领域的专用计算带来了性能和能效更优的解决方案。神经网络加速器在这两类系统中的地位尤其重要。本文指出神经网络加速器设计在计算模式、计算架构和存储优化方面尚存在不足:需要建模计算模式与执行目标的数学关系,以便在不同的执行目标和网络结构下选择最优的计算模式;需要支持动态重构逻辑的计算架构,在网络内的各层执行时能灵活调整其计算模式,达到最优的执行效果;需要引入高密度存储器解决访存问题,而同时要对其带来的额外开销进行优化。本文针对以上需求,总结出两套神经网络加速器的优化设计方法:基于“计算模式-动态重构”的计算架构设计方法,和基于“器件特性-容错能力”的存储优化方法。以此为指导思想,本文主要完成三项研究工作:(1)本文设计了面向通用神经网络近似的神经网络计算架构RNA。RNA架构以降低计算延迟为执行目标,通过动态地重构硬件资源解决神经网络拓扑结构与固定的硬件资源间潜在的失配问题,相比于传统通用计算系统,可获得572倍的加速器性能加速比,和7.9倍的应用级加速比。(2)本文设计了面向专用人工智能领域的神经网络计算架构DNA。DNA架构以提高计算吞吐和能效为执行目标,通过动态地重构硬件资源实现混合数据复用模式和并行卷积映射方法,可获得高达93%的计算资源利用率和3.4倍的计算吞吐,相比于国际顶尖工作有1到2个数量级的系统能效提升。以DNA计算架构为基础的人工智能计算芯片Thinker已通过流片验证。(3)本文提出了基于数据保持时间的神经网络存储优化框架RANA。RANA框架利用神经网络算法的容错性和计算过程中的数据暂存性,在神经网络加速器中引入e DRAM高密度存储同时几乎不需要对其刷新,可减少41.7%的片外访存和66.2%的整体系统能耗。本文的三项研究工作与两套优化设计方法相辅相成。研究工作本身均已进行充分的实验验证,具备很高的实用价值。优化设计方法不仅为研究工作中提供了有力支撑,对神经网络加速器架构未来的研究方向同样具有指导意义。
其他文献
通过数值模拟有限区域水气界面由强迫作用驱动形成的水体涡旋及环流动力结构特征,分析非均匀风场、水体急流、两者叠加以及环境边界和地转偏向力等因子的综合影响,探讨此类水体
为了确定硝化纤维(含氮量11.89%~13.5%)的热物性参数,进行热分析计算,揭示其反应动力学机制,采用激光闪射法和差示扫描量热法对含氮量12%的硝化纤维的热物性参数进行了测量。给
余吾煤业南风井+400m水平南翼轨道大巷里程700~820m段施工后,顶板下沉,两帮收敛,底鼓严重。部分区段经扩帮、拉底后,变形仍在持续,严重影响井下运输安全。根据该段巷道矿压显
浮游动物是海洋生态学研究中关注的重要生物类群,如何快速有效地掌握其种群结构、丰度与大小分布是迫切需要解决的技术难题。传统的人工镜检网采样品的方法由于耗时、工作量
山东省地方良种肉用多胎洼地绵羊具有繁殖力高、肉质好、抗腐蹄、耐潮湿、肉皮兼用等特点,具有很高的经济价值和市场前景。本文介绍了肉用多胎洼地绵羊饲养管理技术,及疫病防治
王庄煤矿井下换装站1号换装硐室长99m,掘进断面111.76m^2,净断面89.57m^2。硐室施工中,发生了严重底鼓,采用钢筋混凝土反底拱+超长锚索群联合支护进行修复,取得了成功。硐室62.8m未施
采用 B3LYP、QCISD、MP2方法在6-311+G*基组水平上对 HN3+NH2CN→5-AT的环加成反应进行了研究,用气相条件下的计算方法结合 SCRF/PCM模型对四氯化碳、丙酮、二甲亚砜、水四种不同
考察了RDX在不同溶剂中的冷却结晶行为,环己酮作为溶剂时得到的晶体品质最高。对RDX在环己酮中冷却结晶过程的研究结果表明,搅拌速率主要影响粒度及其分布,降温速率则决定晶体缺