面向可变形卷积的神经网络加速器

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:realmummy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可变形卷积网络在计算机视觉任务中被广泛使用,在目标检测、语义分割、目标分类以及视频动作检测等多种领域中都展现出良好的性能。在可变形卷积网络中传统的卷积层和可变形卷积层都是计算复杂度的主要来源。然而现有的神经网络加速器主要集中于传统卷积层的优化加速任务,对于可变形卷积层的关注却很少。目前的研究工作中,一种较为常见的做法是通过修改算法,使可变形卷积算法适合在硬件上映射,但是这样的做法或多或少会使得可变形卷积网络的精度有所下降。因此,目前并没有可以支持完整可变形卷积算法的加速器。在本文的研究中,我们对可变形卷积进行了深入的探索。对于可变形卷积的硬件加速进行了深入研究,分别在基于ReRAM的卷积神经网络加速器和一维点积阵列神经网络加速器的基础上实现了可变形卷积层的加速。对于基于ReRAM的卷积神经网络加速器,我们选用了不同尺寸的ReRAM阵列并且选用了不同精度的ReRAM单元。使得ReRAM阵列可以更好的支持可变形卷积的运算。同时,我们提出了一种新颖的执行双线性插值的映射方法,这种方式避免了ReRAM阵列顺序写入带来的高延迟和高功耗,减少了硬件的操作次数,可以在原地完成双线性插值的全部计算。然后,本文修改了输入缓冲区的结构,不仅避免了高功耗的四端口设计,又保证了计算阵列可以得到足够的数据。并且根据缓冲区结构,本文设计了相应的在线索引生成单元,并通过分块策略提高了面积利用率。最后通过重新设计数据流提高了加速器执行可变形卷积的并行度。最终的实验结果表明,和CPU,GPU,ASIC+CPU以及ISSAC+CPU四种平台相比,本文的设计在性能方面分别达到了227倍,15.1倍,26.8倍和20.4倍的提升。在能耗方面分别达到了225倍,17.4倍,32.9倍,38.6倍的降低。进而针对更为广泛使用的一维点积阵列神经网络加速器,本文设计了一款基于一维点积阵列加速器的可变形卷积神经网络加速器。根据可变形卷积的算法特征,我们将可变形卷积的执行步骤分为三步进行处理,并通过将各个处理阶段拼接融合,避免了数据的反复传输,避免了昂贵的通信代价。然后设计了新的地址转换单元,将特征索引转换成输入缓冲区的索引,同时地址转换单元可以计算出双线性插值计算需要的系数,这可以将双线性插值转换成一个小型的卷积运算。最后我们将双线性插值部署到一维点积阵列。实验结果表明,在执行可变形卷积神经网络方面,我们的设计明显优于另外三种硬件平台。
其他文献
声发射技术具有对损伤敏感、受几何构造影响小、探测距离远等优势,适用于土木工程结构的在线监测。利用声发射进行结构健康监测需要通过声发射信号的定量分析达到损伤识别、定位和评估的目的。声发射信号包含材料的动态微观损伤信息,不同损伤机理的信号通常具有不同的瞬时频率成分。本文针对声发射信号定量分析的需求,提出基于时频分析和深度学习的声发射信号分类方法。采用小波变换研究声发射信号的时频能量分布,然后建立卷积神
自2004年第一个基于核酸适配体的药物Macugen被成功运用于临床治疗后,核酸适配体药物便有了一定的发展。然而,目前用于临床治疗的适配体药物只有少数几种,而造成这种现象的原因之一是适配体的构象稳定性差。适配体折叠能量是评估适配体构象稳定性的重要参数,但是目前测量适配体折叠能量的方法有限且存在一定的误差。除上述基于适配体的药物发展所面临的问题之外,基于适配体的生物传感器同样面临着一定的困难。由于通
相控阵雷达、5G无线通信试验系统、宽带数字接收机和数字示波器的高速发展正在将系统带宽不断推高,显著增加了数据采集系统对高速、高精度ADC(Analog-to-Digital Converter)的需要。时间交织ADC(Time-Interleaved ADC,TIADC)技术是提高采样率的有效途径,但是这将不可避免地引入通道失配误差,主要包括失调失配、增益失配和采样时间失配,并严重降低了TIADC
随着互联网和大数据技术的发展,方方面面对数据的依赖越来越强,产生的数据规模越来越大,数据样本复杂度也越来越高。为了精准地预测数据,获取准确且有价值的信息,就需要选择合适的技术进行处理。本文借助极限学习机模型的优势,针对多标签分类中的数据标签和数据样本结构问题开展相关研究工作,主要工作包括:对于多标签分类中存在非线性的数据样本和重复的样本数据问题,本文提出了一种基于在线顺序极限学习机的改进算法—样本
移动自组织网络(Mobile Ad-hoc Network,MANET)具有无基础结构、自组织和多跳能力的特性,在军事任务或紧急救援中具有巨大的潜在应用。对于军事场景而言,在MANET中实现低成本、高效的反入侵、反窃听和反攻击机制非常重要。入侵MANET或攻击MANET的目的通常与有线Internet的目的不同,有线Internet的安全性机制如集中认证和授权已得到广泛探索和实施。而对于MANET
机器人执行抓取任务时,力传感器和力执行器是两个重要的工作部件,利用力传感器可实现力执行器的闭环控制,提升机器人的抓取智能水平。由于具有良好的延展性和安全交互性,柔性力学传感器和力执行器随着柔性电子技术的发展逐渐兴起,已成为智能机器人领域的研究热点。然而,目前相关研究集中于单一力传感器或力执行器件的研究,关于两者一体化集成的研究工作较少。此外,力传感器和力执行器使用的原理不同,信号转换复杂、集成度较
Cu2+在生理和病理事件中起着至关重要的作用,人体中Cu2+的不平衡会产生许多问题,比如人体中过多的Cu2+会产生多种肝脏或肾脏疾病,但是当体内Cu2+不足时,会使人们产生脑缺血从而患上神经衰退性疾病严重者甚至死亡。因此,开发一种用于Cu2+实时快速测定的高效方法具有重要的研究意义。鉴于现有的Cu2+检测技术精度较低、需要复杂的样品预处理和笨重的仪器、且检测时间久,无法满足实时检测等一系列问题的存
图像的风格迁移是一种重要的图像处理技术。风格迁移技术旨在通过一定的算法,将一张图片的内容信息与另一幅图片的纹理、色调、轮廓等风格信息相互融合,继而创造出一张全新的图像,与原图像相比,生成的图像在原有的内容信息不改变的情况下,风格却变得迥然不同。近年来,深度学习的快速发展以及其在图像处理方面的优异表现引起了研究者们的广泛关注,研究者们开始运用深度学习技术来研究图像的风格迁移问题,并取得了许多突破性的
近年来基于共轭聚合物超薄膜的有机场效应晶体管(OFET)成为气体传感领域的热门研究方向。由于超薄膜的厚度仅为几个单分子层厚,其用于气体传感可以增加OFET导电沟道与气体分子的物理接触面积,减少气体分子在有机半导体中的扩散路径,从而提高传感器件的传感性能。本论文围绕OFET超薄膜微观结构与电学、气体传感性能之间关系尚不清楚这一问题,以优化超薄膜OFET气体传感器制备工艺、提高OFET器件传感性能为目
作为人机语音交互的出口,语音合成的效果直接影响到人机交互的体验。一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。目前,大多数很多优秀的致力于提高中性语音成的质量的TTS模型已经被提出,例如Tacotron2和Wave Net。但这些模型大多数使用的是RNN或者LSTM作为编码器和解码器,这种自回归的结构导致这些模型在训练和预测时很慢。此外,随着智能化语音合成系统的不