图像识别中数据增强方法的理解与改进

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:fdsasdfds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据增强作为一种简单有效的方法被广泛应用以提升模型泛化能力,特别是在训练深度神经网络时。近年来研究人员们提出了不少新的数据增强方法进一步提升分类任务的准确率,其中主要以两类为首:Mixup这类对两张图片进行线性插值的方法,以及AutoAugment这类搜索最佳数据增强策略的方法。在本文中,我们针对Mixup中线性假设的不合理性,提出了一种基于特征空间距离的自监督方法,该方法要求原始图像和生成图像在特征空间上的一致性。首先,我们通过诊断实验,分析Mixup的线性假设对模型的影响,可以发现线性假设对训练深度神经网络这类非线性模型不是完全合适的。受到图像的语义信息与特征空间相对位置有关的启发,因此我们以原始数据的特征作为监督修正生成数据的标签。为了有效地实现这一想法,我们使用了两阶段式的训练过程,即先在特征空间中对原始数据的类别中心进行计算估计,然后通过计算好的类别中心修正Mixup损失函数并训练深度神经网络。此外,由于Mixup的其他变体也同样存在了类似的标签生成问题,所提出的方法也与这一类方法兼容。我们通过各种深度神经网络在两个常见的图像分类数据集CIFAR10和CIFAR100上验证了我们的方法,显示了一致的泛化性能提升。我们还通过对超参数的分析实验,评估所提方法的鲁棒性。更深入地,在本文中,针对近来提出的数据增强方法导致了干净数据和增强数据之间存在相当大的差异性,我们从理论分析的角度重新审视了这个问题。为此,我们使用经验风险和泛化误差这两项来估计期望风险的上限,进一步建立了对数据增方法作为正则化方法的深刻理解:数据增强方法主要是突出主要特征。因而,数据增强显著降低了泛化误差,但同时导致了轻微更高的经验风险。在数据增强可以帮助模型收敛到一个更好的区域的假设下,我们通过一种简单的方法实现更低的经验风险,即在训练末期去掉带来较大分布差异的强数据增强方法对模型进行训练,从而进一步提升模型表现。我们的方法在常见的标准图像分类数据集上取得了一致的准确率增益,并且该增益能够迁移到目标检测任务上。
其他文献
视频中的人体行为识别问题的任务是输出视频片段中的人体行为类别,其应用领域十分广泛。在诸如公共场合视频监控、独居老人智能监控防护等应用场景中,能够准确及时地识别出人体的行为类型,对保障公共安全、对老人及时采取救助有着重要的意义,因此不仅需要保证行为识别方法的准确率,而且需要很高的识别速度。现有的行为识别方法将研究重点放在提升准确率方面,而针对识别计算量的关注不足,因此普遍存在计算复杂度高的问题。如何
随着现代信息技术的发展,光纤通信技术在信息传输中发挥着越来越重要的作用。然而由于光纤Kerr非线性效应的存在,造成信号在该介质中的畸变传输,导致信道传输速率受到了极大的限制,因此人们研究出数字和光学领域的大量技术来减轻这一不利影响。近几年来,一种新的基于非线性傅里叶变换(NFT)的非线性损伤补偿方法得到了广泛关注。该方法基于光纤传输信道的非线性薛定谔方程(NLSE)模型,将色散和光纤Kerr非线性
交通运输促进了货物的快速供应以及人员远距离的流动,大规模的交通运输提高了人们的生活质量和资源的可利用性和优化性。陆上和海事的交通量都在不断增加,并被认为是货物和人员运输中最主要的参与者。然而,如此高的交通量和增量随之而来的是事故的频繁发生。海陆交通事故造成了宝贵的生命和巨大的经济损失,每年全世界都要遭受数十亿美元的经济损失和数十万条宝贵的生命,而环境损失更是雪上加霜。为了减少此类事故的发生频率和严
随着我国制造业的迅猛发展,紧固件的重要性逐渐得到重视。本文针对紧固件在工程中最常见的横向振动松脱失效进行研究,分别建立了紧固件在拧紧过程与横向振动过程的力学模型。在拧紧过程的研究中,在前人圆头螺栓研究的基础上,对其扭矩系数的精确计算进行了完善,同时推导出六角头螺栓与圆头方径螺栓的扭矩系数,并通过拧紧实验进行验证,结果吻合较好。在横向振动的研究中,在前人考虑静载局部滑移研究螺栓临界横向力的基础上,结
水下智能机器人(AUV)已被广泛地应用于海洋资源开发及水下工程作业,视觉是目前最重要的环境探测技术之一,卷积神经网络广泛运用于目标检测。基于Le Net-5,本文提出了一种适用于水下训练集的卷积神经网络(CNN),并通过树莓派完成图像识别。AUV通过树莓派控制摄像机和水下照明灯,通过Open CV完成水下环境的图片采集;就卷积神经网络的主要网格结构卷积层、池化层、激活函数和梯度下降法进行了理论推导
伴随无线通信技术发展,产生了海量的无线设备、多样的设备种类、丰富的无线业务类型,于是通信、多媒体等业务的需求量随之高速增长,无线通信网络需要有更强的数据传输与处理能力来服务庞大的需求。无线网络对作为传输载体的频率资源的需求量急剧增加,而可用于无线通信的频谱资源有限,提升频谱效率成为无线通信未来发展的重要研究目标。传统无线通信采用频分双工或时分双工方式进行传输,全双工通信支持收发信机在同一频带内同时
毫克级扑翼微飞行器因尺寸微小、灵活机动,可以完成大型飞行器无法完成的任务而具有广阔的应用前景。其基于高频拍翅的升力机制具有振动非线性、多自由度力和力矩耦合等特征,有效升力/力矩为mN/μNm量级,难以用现有力/力矩传感器准确测量,给扑翼微飞行器的测试与控制带来一定的困难。为了解决这一问题,本文设计了面向毫克级扑翼微飞行器的多自由度力-力矩测试系统,该测试系统可以同时测量毫克级扑翼微飞行器所产生的力
随着科学技术的发展,物联网技术逐渐走进大家的日常生活,从智能家居、安防监控到自动驾驶、环境监控,互联网时代下的物联网正在悄无声息地改变着人们的生活方式,人们对于物联网的需求也日益增大。物联网的发展离不开基础网络设施的发展和建设,而作为一个传统的发展中国家,在中国的农村地区和部分偏远地区,基础设施建设不完善,这部分的人口享受物联网带来的便捷和物联网经济带来的红利就变得艰难。因此,寻求一种适用于中国农
认知科学和神经影像学领域的研究已经表明,情绪是一种极为复杂的行为和生理反应,它涉及到大脑中多个区域的回路。然而,目前在基于脑电信号和眼动数据的多模态情绪识别研究中,通常采用的是基于单通道分析的脑电特征提取方法,而未考虑到情绪所对应的脑功能连接网络。本文主要基于脑电信号来探索情绪所对应的脑功能连接网络模式。我们提出了一种与情绪相关的关键子网络选择算法,并提取了三种脑功能连接网络特征:连接强度,聚类系
为了在有限的资源上实现更多的连接,提高系统的频谱效率,非正交多址接入(Non-orthogonal multiple access,NOMA)技术被确定为第五代移动通信系统候选空口技术之一。作为码域的NOMA技术,多载波低密度序列(Multi-carrier low-density signature,MC-LDS)技术和稀疏码多址接入(Sparse code multiple access,SC