【摘 要】
:
传统的监督机器学习分类方法需要对大量的准确标注数据进行训练来保证其效果。但是,在许多现实应用中,获取大量准确标注的数据需要付出高昂的时间成本和技术成本。因此,如何在少量且标注不完全准确的数据中训练得到鲁棒的分类器一直是一个备受关注的问题。近年来,研究者们提出了各种弱监督学习框架来解决这一难题,其中包括半监督学习(SSL)、标记带噪学习(NLL)、偏标记学习(PLL)、补充标记学习(CLL)、从正标
论文部分内容阅读
传统的监督机器学习分类方法需要对大量的准确标注数据进行训练来保证其效果。但是,在许多现实应用中,获取大量准确标注的数据需要付出高昂的时间成本和技术成本。因此,如何在少量且标注不完全准确的数据中训练得到鲁棒的分类器一直是一个备受关注的问题。近年来,研究者们提出了各种弱监督学习框架来解决这一难题,其中包括半监督学习(SSL)、标记带噪学习(NLL)、偏标记学习(PLL)、补充标记学习(CLL)、从正标记与未标记数据中学习(PU)。通过这些弱监督学习解决现实问题的同时,研究者们也不断尝试新的弱监督学习框架和方法。但是其中依然存在一些问题。一方面对弱监督学习中处于重要位置的PU学习问题的研究依然停留在二分类场景,从多类正标记数据和未标记数据中学习(MPU)的算法很少被研究。而在现实任务中,多分类问题是比二分类更常见。另一方面很少有弱监督算法考虑到学习场景的问题,现有的学习场景主要分为离线学习场景和在线学习场景。在之前的研究中,研究者们都默认学习场景为离线学习场景,即训练数据是一个完整的数据集合。但是在现实世界中更常见的在线学习场景,即训练数据是一个序列而非完整的数据集合。而且在线学习的目标是在训练数据为序列时能动态的更新算法模型。因此,在线学习的模型训练得到一个有效的分类模型会比传统离线学习的模型训练使用更少的训练样本。首先,本文将研究二分类的PU学习问题扩展成多分类的MPU学习问题。在MPU学习问题中,我们会在k个标记中选择一个标记为负标记,其余k-1个标记为正标记。然后,多分类正标记数据将在k-1个正标记数据中选取,而未标记数据则来自于正标记数据和负标记数据。在此之前,研究多类正标记与未标记学习问题仅有一个算法。该算法对正标记数据和无标记数据使用不同的凸损失函数,并对无标记数据的伪标签进行估计以进行模型训练。然而,他们的方法有几个缺点。首先,为了进行模型训练,需要预先计算每一类的嵌入量。其次,有两个变量需要交替优化,这两个变量可能会陷入局部最优。第三,未标记数据上错误估计的伪标签可能会严重干扰后续的模型训练。因此在本文中,我们提出了从多类正标记和未标记的数据中学习的原始分类风险的无偏估计方法UREA。然而经过研究我们发现由于无偏估计的直接经验损失不存在下界,模型在训练过程中将产生严重的过拟合现象。为了解决这个问题,我们提出了一个替换无偏估计中的负项的非负修正方法AREA,以此避免模型在训练过程中产生过拟合现象。同时我们在理论上建立UREA算法和AREA算法的泛化误差界。我们证明了其经验风险最小值的估计误差达到了最优参数收敛速度。然后,因为上述的研究仅仅适用于离线学习场景,并且提出的算法不能处理训练数据的序列输入。因此,我们将提出适用于在线场景下从多类正标记和未标记的数据中学习多分类的算法。具体而言,我们首先将离线学习场景下的MPU分类损失无偏估计应用到在线学习场景当中,并在目标函数中添加一个保守正则项得到了在线学习场景下的无偏估计方法OMPU-UREA。与离线学习场景相同,OMPUUREA算法的直接经验损失存在无下界问题,从而导致在训练过程中产生过拟合现象。因此,我们将有下界的算法AREA引入在线学习场景的到了OMPU-AREA算法。同时,我们在理论上证明了OMPU-UREA算法和OMPU-AREA算法的遗憾界。最后,我们提出了一个基于在线消极对抗算法框架的OMPU-LSPA算法,该算法通过对模型分类损失施加一个线性约束实现了对模型分类损失的非负修正。具体而言,在该线性约束下,当模型分类损失为负时,我们不更新模型。同时,我们将在理论上给出OMPU-LSPA算法的错误界,以保证OMPU-LSPA算法对序列输入数据的分类效果。根据本文的理论分析结果和实验结果可以得出,不论是离线学习场景还是在线学习场景,MPU问题的无偏估计方法都优于常规方法。但是由于无偏估计的直接经验损失可能为负,在训练过程中会导致过拟合现象。所以无偏估计方法的分类效果都会低于使用了分类损失非负修正的算法。因此,对于一个分类损失无偏估计直接经验损失可能为负的问题,对其分类损失进行合理的非负修正会有效的提高模型的分类性能。
其他文献
从2009年以来,国内尚未出现过上市企业退市后重新回到A股市场的先例。虽然川仪股份在2014年在A股重新上市,但此时的川仪股份已经“卖壳”,企业的业务与之前有了较大变化,并不是真正意义上的以恢复持续经营能力为基础重新上市。此间,多家ST企业积极申请重新上市,但一直未能获批,如何能重新上市成为了众多退市企业正在思考的问题。而招商南油在2019年成为了首家退市后重新上市的企业,且是目前为止的唯一一家。
海藻糖是一种应用广泛的非还原性双糖,在医学、化妆品行业、制药学、食品加工业以及农业等领域都有十分诱人的应用前景。而利用酶法制备海藻糖是现今生产海藻糖的主要手段。在可制备海藻糖的各种酶类中,海藻糖合酶可以利用麦芽糖为底物通过一步反应生产海藻糖,整个过程简单可控,原料成本低廉,因此引起了人们越来越多的关注。然而目前天然的海藻糖合酶其结构与功能之间的关系还未被人们所了解,并且存在着催化效率较低,反应产生
随着新时代教育教学的发展,现有的传统教育模式已经不能满足课程改革和素质教育培养的要求。贵州省铜仁第一中学是贵州省级示范性高中,在美术学科教育中也面临着同样的问题。普通高中美术课程作为高中学生人才培养体系的素质拓展必修课程,承担着立德树人、以美育人的根本任务。如何在教育教学过程中真正的发挥美术学科的育人功能,进一步的提升学生的核心素养,促进学生全方位的发展成为美术学科教育教学发展的重要课题。同时,通
新课程改革是我国教育研究的热点。数学是学科教育中的重要科目,其学科特点明显并且具有科学的素养价值。因此,数学在教育人、陶冶人、启迪人等方面有着非常重要的作用。近年来,随着科学和经济的迅猛发展,社会对知识和人才的要求也发生着巨大变化。数学教育必须不断地进行变革,来适应时代的发展。但是,改革是非常复杂的,是会受到教材、学校、考试、社会等很多因素限制的。就目前中学数学教学现状看,并不尽如人意。到目前为止
本文以吴镇烽先生的《商周青铜器铭文暨图像集成》、《商周青铜器铭文暨图像集成续编》及《商周青铜器铭文暨图像集成三编》为材料来源,对秦系有铭铜器的有关内容进行全面收集和梳理。以上述材料为基础,本文首先对秦系金文研究的学术史进行了简要回顾,以秦文化研究、秦金文书写系统研究以及秦金文风格分类的再阐释为问题意识,并对金学智《新二十四书品》分类风格提出新思考;其次对秦系金文书法的艺术特色进行了系统性研究,以求
段正渠是一个具有代表性的以乡土为主要创作题材的画家,他所创作的农民形象在当今中国画坛独树一帜。在这三十几年的艺术创作生涯中,段正渠一边提高自己的绘画技艺,一边变化绘画方式,作品展现出浓厚的人文意蕴。但不论怎么变化,他想通过作品传达的始终是农民群体质朴纯粹的特点,但所呈现的画面内容又超越了对农民形象的客观描写。段正渠将自己的生活经历和人生体验融入到作品之中,画面中蕴含着超越现实层面的精神意象,他创作
自旋和电荷是电子固有的内禀属性,前者主要用于信息的处理和传输,而后者大多用于信息的储存,通常由磁性材料完成。若一种材料同时具备这两种属性,那么就十分使用于自旋电子学的研究[1]。自旋阀[2]以及磁隧道结(MTJs)[3-6]都是自旋电子学器件的关键组成元件,其中MTJs是应用最广泛的一种,研究表明,MTJs具备的高自旋过滤效应和磁隧穿电阻(TMR)效应对自旋注入效率、信息存储容量提升等方面有重要作
旅游业是国家和地区经济的重要组成部分,“互联网+”推动旅游产业进入新时代,一大批传统旅游景点和旅游城市通过“抖音”、“快手”等短视频平台的传播获得了巨大的流量和热度,成为了“网红”城市,如何维系“网红”城市的品牌热度,提高游客对旅游景点的忠诚度很值得研究,为此,本研究以“网红城市”重庆为例,探讨群际偏差、游客旅游满意度和地方依恋对游客旅游忠诚度的影响,从而为提升游客旅游忠诚度提供建议。本文以游客不
目的:明确血糖波动是否影响危重患儿预后,探寻代表儿童血糖波动的临床最佳监测指标。方法:前瞻性收集2020年1月1日至2020年12月31日期间连续入住5个参研中心儿童重症医学科的并满足纳入排除标准的患儿的临床资料,计算平均血糖和四个血糖波动指标,即标准差(SD)、血糖不稳定指数(GLI)、平均绝对血糖改变值(MAG)及有助于实时临床决策的度量指标-平均连续绝对变化百分比(ACACP)。以28天死亡
背景:阻塞性睡眠呼吸暂停综合征(Obstructive sleep apnea,OSA)是一种慢性炎症疾病,存在多种炎性因子激活及水平升高,同时与心血管疾病关系密切。NLRP3炎性小体参与慢性炎症疾病的发生发展,与心血管疾病预后有相关性。体外研究证明缺氧模型中NLRP3炎性小体表达升高,目前尚无有关OSA患者体内NLRP3炎性小体水平的确切报道。目的:研究旨在探讨OSA患者的NLRP3炎性小体及相