处理噪声标记的鲁棒深度学习方法

来源 :南京大学 | 被引量 : 0次 | 上传用户:syhlgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习的成功依赖于大规模具有精确标记的数据。获取数据真实标记需要大量人力物力,代价昂贵。实际应用中标记通常由众包等廉价方式收集所得,往往带有噪声。如果盲目地使用带噪标记数据进行学习,深度神经网络的性能会受到严重影响。因此,如何处理噪声标记近年来成为研究热点。基于小损失准则(small-loss criterion)的样本选择方法是当前深度学习中处理噪声标记使用最为广泛的方法之一。这一准则从带噪标记数据中选出损失较小的样本来更新深度神经网络,虽然在实际应用中取得了良好的效果,但仍然缺乏相应的理论支撑。本文对处理噪声标记的方法进行研究,主要取得了以下进展:1.给出了小损失准则的理论解释并基于此对其进行了重新形式化。本文首先对处理噪声标记的小损失准则进行理论分析,证明了当噪声转移矩阵满足对角占优条件时,对于具有相同观察标记的样本,标记正确样本的损失会比标记错误样本的损失更小,这解释了为何小损失准则能够奏效。基于此理论解释,使用平均损失和逐类选择对小损失准则进行了重新形式化。相应数据集上的实验验证了这一理论解释并表明重新形式化的小损失准则能够更加有效地处理噪声标记。2.提出了一种基于自监督和半监督学习的鲁棒深度学习方法。近来研究表明噪声标记会严重影响深度神经网络,特别是特征提取器。所提方法基于自监督来进行特征学习,以减轻噪声标记对深度神经网络的影响。同时,当前小损失准则方法往往抛弃大量未选中的数据,造成数据的极大浪费。为了充分利用数据,所提方法将未选中的高风险数据视为未标记数据,并基于半监督学习方式来加以利用。相应数据集上的实验表明这一基于自监督和半监督学习的鲁棒深度学习方法能够取得更好的效果。
其他文献
太赫兹(THz)波兼具微波和红外波段的谱段特性,在安检成像、天文观测、生物医疗、自动驾驶等方面有着广泛应用前景。太赫兹探测器是太赫兹技术的核心器件,基于集成电路的CMOS太赫兹探测器具有成本低、集成度高、室温检测等优势,在太赫兹探测和成像系统应用中显示出巨大潜力。研究和发展高响应灵敏度(RV)、低噪声等效功率(NEP)、大带宽、低极化选择性的CMOS太赫兹探测器是目前该领域的主要发展方向。本论文基
目前主流的激光雷达测距方案包括三角测距法、飞行时间(TOF)测距法、调幅连续波(AMCW)测距法等。三角法在远距离探测时,探测误差会呈几何量级增长,并且在阳光直射的情况下,反射光斑通常会淹没在太阳光中,导致探测器无法提取反射光斑,从而使仪器失效。光的飞行速度极快,因此TOF测距方案需要一个非常精细的时钟电路(通常是ps级)和脉宽极窄的激光发射电路(通常是ns级),因此开发难度和门槛较高。AMCW测
氯化聚丙烯对聚烯烃基材具有良好的附着力,广泛用于胶粘剂、涂料、油墨等,为进一步改善与极性材料的粘接,可通过共混或接枝的方式向氯化聚丙烯分子中引入极性基团,而有关环氧树脂改性氯化聚丙烯胶粘剂的研究非常少。另外,聚烯烃复合绝缘子是输电线路用的一类新研发的绝缘子,为解决极性的环氧玻纤芯棒与非极性的聚烯烃护套(伞裙)的粘接问题,本文研究了氯化聚丙烯/环氧树脂胶粘剂的性能,并探索了其在聚烯烃复合绝缘子粘接中
硅烷偶联剂是一类含有两种不同化学性质基团的有机硅化合物,其分子一端是可水解的基团如烷氧基,另一端通过碳链与硅原子相连。硅烷偶联剂可以将性质差异很大的有机材料和无机材料偶联起来,制备出高性能的复合材料。但是在使用过程中,硅烷偶联剂会释放出挥发性小分子化合物,如甲醇、乙醇等,这会对环境和操作人员造成一定的影响。本文的研究目的就是将硅烷偶联剂水解制备出稳定的不含低分子醇的硅烷水溶液,并在水性体系使用。首
掌指关节炎是类风湿性关节炎的一种,具有起病隐匿、发展缓慢的特点,早期的主要临床表现为滑膜炎,该疾病如果不能得到及时的诊治,患者的骨骼会受到影响,临床症状也会由较轻的关节肿胀、疼痛演变为关节病变、关节功能丧失,严重情况下甚至有可能导致残疾。得益于无创伤、成像快、成本低等优点,超声检测已经成为临床上早期诊断掌指关节滑膜炎的主要手段。目前超声图像的阅片、评级工作仍然依靠专业医生人工完成,因而诊断不可避免
网络中包含大量数据,并且这些数据中蕴含着有价值的信息。网络大数据挖掘是利用数据挖掘相关技术从网络大数据中提取模式和知识,例如从网络中的用户历史行为数据中挖掘用户的兴趣信息、在网络时序数据中识别异常数据。目前研究人员已经成功地将深度学习技术应用于网络大数据挖掘的研究工作中,相比于传统的统计学算法,基于深度学习技术的算法的性能具有显著的提升。变分自编码器是一种深度生成模型,并且已经成功地被研究人员应用
燃烧反应遍布于日常生活中,也广泛存在于火力发电、冶炼金属、航空航天等工业化进程中。而火焰是燃烧反应的“可见形态”,对火焰温度场的研究既可以用来探索燃烧反应的演化规律、解释燃烧现象的本质特征,又可以给节能环保提供重要的科学依据。现如今,成熟的温度场测量方法所测的结果大多是二维的。而研究人员在这些方法上,通过搭建复杂的大型系统、经过繁琐的计算步骤,实现了特定火焰三维温度场的重建,但是这些三维温度场重建
超声测距已经被广泛应用于各类移动设备的定位和追踪。超声测距技术的发展对于下一代应用诸如虚拟现实/增强现实、人机互动以及室内定位等至关重要。相比于基于视觉以及基于射频信号的方案,本工作选择了基于声波的方案有以下考虑1)声波传播速度是电磁波的百万分之一,相比之下能实现更高的精度。2)得益于普遍集成的扬声器和麦克风,很多商用设备可以支持场景构建。3)采样率低、计算性能要求低、硬件价格低,因此处理成本比较
经典通信的安全性是基于求解大数问题的困难性,而随着计算机算力的增加乃至量子计算机的出现,经典通信的安全性受到了严重的威胁。而量子通信技术却可以从根本上保证通信的无条件安全性。近30年来,量子通信的研究不管是理论上还是实验上都取得了丰硕的成果。本文针对量子通信,分别研究了双方情景下的量子密码协议和多方情景下的量子网络通信,主要的内容如下:1)基于测量设备无关和错误估计,提出了两个新颖的双方量子通信协
在我国反洗钱领域,人民银行会定期对证券公司的交易数据进行稽查,要求公司上报洗钱交易数据。人民银行发掘真实洗钱数据并且与公司上报数据进行比对,如果公司存在漏报、误报的情况,则进行大额罚金处罚。其中,股票交易数据属于结构化数据,存储在关系型数据库中。由于表结构复杂,表与表之间关系繁多,可疑数据难以准确定位。因此,证券公司需要构造数据对自身交易合规监控软件进行测试。当前,测试数据通过反洗钱专员根据反洗钱