基于自蒸馏的深度学习训练优化策略

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wangtian575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类作为计算机视觉领域的基石,在图像、视频数据爆炸式发展的今天显得尤为重要,并具有巨大的现实意义。深度学习在图像分类领域不断发展,做出了许多巨大突破,与此同时如何再次提升模型准确率、开发模型潜能以适应有限的硬件资源成为了热点问题之一。知识蒸馏作为知识迁移的具体实现手段,在模型压缩领域发挥了巨大作用。本文运用知识蒸馏的自蒸馏思想,优化了网络模型的训练策略,提出了基于训练过程的并联知识迁移训练架构,使网络模型训练过程中不断通过网络输出进行基于目标的自蒸馏,达到使用同构模型在相同领域中实现网络模型精度提升的目的。在传统知识蒸馏的实现中,需要预训练出教师网络,教师网络一般是精度更高、结构更复杂、参数更庞大的网络模型,通过教师网络强大的特征提取和识别能力,以网络输出logits为载体,结合真实标签,对待训练的学生模型进行知识蒸馏并提升学生模型精度。自蒸馏思想是利用同构模型或者仅利用模型自身进行知识蒸馏,以达到自我精度提升的目的。本文结合自蒸馏思想,改进了传统训练架构,以同构模型并联训练的方式,在训练过程中不断进行相互之间的知识蒸馏,使两个模型在每轮训练中学到的知识都能及时进行信息传递与同构模型之间的自蒸馏,达到模型迁移的效果,相互之间有效对抗过拟合,共同提升模型精度。本文为训练优化策略提出了两种具体的实现方式——基于数据增强的优化策略与基于同类特征的优化策略。基于数据增强的优化策略下,并联的两个网络保持输入数据的一致,通过随机的数据增强使数据产生差异化,通过蕴含不同模型知识的网络输出进行基于目标的知识蒸馏,完成训练过程中的模型迁移,实现精度的提升。基于同类特征的优化策略会控制并联网络的输入数据为同一类别数据,卷积网络输入同类数据会产生具有该类共同点的特征,其输出logits也蕴含了该类型的偏好,以此进行基于目标的知识蒸馏,实现精度的提升。通过Cifar-100、Tiny-ImageNet200、SVHN三个各具特色的图像识别常用数据集进行实验验证,以具体的实验精度与网络训练损失值论证了本文提出优化策略的有效性。通过实验探讨了蒸馏相关系数的选取问题,并通过在三个数据集中与Baseline和不同深度的基础模型进行了横向和纵向的对比,验证了本方案良好的提升效果与普适性能。
其他文献
微博、微信等网络社交媒体的兴起标志着自媒体时代的到来,自媒体新闻有着广阔的传播覆盖面,对自媒体新闻进行情感分析有利于了解社会公众对公共事件的整体态度和看法。目前,得益于众多电商平台完备的评价体系,商品、电影评论等领域已经有很多规范的中文情感数据集。然而对于其他非特定领域,由于缺乏相应的评价体系,数据标签的获得只能依赖成本高昂的人工标注,这就导致大量深度学习任务都普遍面临着小数据和非平衡的问题,而且
随着微电子技术、通信技术和信号处理技术的快速发展,可穿戴生理信号采集系统成为可能,并逐渐成为研究热点。一方面,如心电(electrocardiograph,ECG)、脑电(electroencephalograph,EEG)、肌电(electromyography,EMG)等生理信号的实时采集,实现了对心血管疾病、癫痫等患者的长期监护,达到了及时治疗和预防的目的,缩短了医患交互的时间和空间,降低了
过去十几年来,用户对带宽的需求一直呈指数级增长,在未来很长的时间里,这种增长趋势会一直保持。作为电信基础设施的骨干技术,光纤通信技术的进步支撑着互联网和移动互联网业务的发展,但受限于熔融光纤的非线性效应,单模光纤传输容量的理论极限大约为100 Tb/s,近几年的实验结果表明,以单模光纤为传输媒介的通信系统的传输容量,已经越来越接近其理论极限,即将面临“带宽瓶颈”。在这种背景下,空分复用技术作为突破
随着“中国制造2025”战略的逐步深化,自动化生产和智能化生产具有越来越重要的地位,作为工业基础的数控机床的重要性也在与日俱增,在航空航天领域中尤其如此。在航空制造业中,为了减轻飞机的重量,同时要保证飞机结构的高强度和较长的使用寿命,薄壁零件成为一种极好的选择,已经被广泛应用于航空制造业中。然而由于薄壁零件具有壁厚较小、体积较大、结构较为复杂等特点,数控机床对其进行加工具有较大的难度,难以保证其加
随钻测井是指测井仪器随钻头一起下井工作,在钻井的同时进行测井工作,并把测量结果实时传输至地面,随钻密度测井是其中的代表技术之一,本文的研究内容就是围绕随钻密度测井仪器展开。测井结果的实时性是随钻测井技术独特的优势,但同时也对仪器的实时数据处理能力有着很高的要求。实时数据处理包括对原始数据的计算和存储,二者在工作流程中的关联性越低,数据处理流程的稳定性越高。Flash均衡算法旨在通过一定的策略,使得
随着生物特征识别系统安全性和准确性需求的增加,指静脉识别受到广泛地研究。与其他生物特征相比,指静脉识别自带活体识别,安全性更高,使用更加便捷,因此具有重要的研究意义。随着深度学习技术的发展,指静脉识别算法的效果也在逐渐提高。特征提取是指静脉识别算法的研究重点之一,如何提取具有较好识别性的特征仍然存在挑战。为了提高特征的判别性,本文研究了一种增加特征判别性的损失函数。为了提取更多的语义信息,本文设计
数据包络分析(DEA)是一种评价包含多输入和多输出的样本之间相对有效性的方法,在确定有效以及最优得分的样本这一应用环境中,已被证明非常有效。但是,在应用的时候,此类方法存在两个问题,第一是需要人为设定权重本身或者权重的范围,这会带来了综合评价模型存在任意性的问题;第二是会产生太多的有效样本,这类结果在解释性上与实际存在偏差。本论文针对上述问题,结合回归和分类的思想,对传统的DEA模型分别进行改进。
随着移动智能设备的迅猛发展,基于深度神经网络的智能化应用丰富多样,特别在图像内容检索(Content-Based Image Retrieval,CBIR)、语音识别等领域取得了巨大的成功。数据和服务外包提供了一种经济而高效的应用部署解决方案,然而,从用户和智能分析模型提供者的角度来看,数据以及模型参数都是价值产品,如何利用云服务强大的存储计算能力,同时保障用户敏感数据和模型参数不泄露,成为智能化
随着基于深度学习技术的发展及其应用场景的不断扩展,各种高性能的神经网络模型已经被广泛应用到现实环境中,特别是基于深度学习的目标检测已经被广泛应用于机器人、自动驾驶以及智能家居等领域。但是神经网络模型对于硬件平台的计算能力和存储容量都有较高的要求,很难部署在资源受限的嵌入式设备上。为解决巨大的模型计算量和存储量与嵌入式设备的资源限制之间的矛盾,对模型进行压缩和加速非常有必要,并且这对于将高性能神经网
电磁波电场强度矢量的取向随着时间发生改变的现象称为电磁波的极化,光学领域这一现象通常被称为电磁偏振。在不同的仪器设备中,通过极化状态的转换来得到所需形式的极化波是非常有必要的。早期的极化控制主要通过液晶和结晶体的相位延迟和双折射效应,或采用多层光栅和铁氧体来实现,但基于这些方法设计的结构较为复杂、样品的加工难度较大,而且难以实现微型化和集成化,同时在性能方面也存在频带较窄、模式单一、极化选择性较差