【摘 要】
:
对于分类问题,基于大量有标签数据的监督学习研究已经取得了很多成果,但现实中想要获取充足的有标签样本非常困难.实际我们能获得的大部分数据都是无标签的或者所含标签值是绝大部分缺失的,所以关于通过学习大量无标签数据中的数据信息来帮助提高模型泛化能力的半监督学习算法一直是我们研究的热点与难点.半监督学习解决了标签值不足时监督学习算法泛化能力不强与缺少样本标签引导时无监督学习算法不准确的问题.半监督学习常见
论文部分内容阅读
对于分类问题,基于大量有标签数据的监督学习研究已经取得了很多成果,但现实中想要获取充足的有标签样本非常困难.实际我们能获得的大部分数据都是无标签的或者所含标签值是绝大部分缺失的,所以关于通过学习大量无标签数据中的数据信息来帮助提高模型泛化能力的半监督学习算法一直是我们研究的热点与难点.半监督学习解决了标签值不足时监督学习算法泛化能力不强与缺少样本标签引导时无监督学习算法不准确的问题.半监督学习常见的算法可以分为低密度分割法、基于图的研究、基于分歧的方法与生成式方法,其中生成式方法中的生成式对抗网络就是本文研究的对象.作为目前机器学习研究的热点,生成式对抗网络(GAN)使用的是零和博弈的思想.构成GAN模型的判别器和生成器通过不断博弈优化各自的模型,判别器输出输入的数据属于真实数据的概率值,生成器学习真实数据的分布.由神经网络组成的判别器根据分配给真实数据低概率值而分配给生成数据高概率值形成的损失来梯度下降更新参数,同样是神经网络的生成器根据判别器分配给生成数据低概率值形成的损失来梯度下降更新参数,判别器与生成器交替优化,最终达到纳什平衡,也就是判别器无法区分输入的数据是真实数据还是生成数据.本文利用Improved GAN半监督分类的思路,在模型前加入了一个弱分类器,先利用有标签数据训练一个弱分类器,将弱分类器对无标签样本的预测结果作为该样本的伪标签值.然后,我们修改了原始模型的损失函数,利用这些少量的有标签数据与带伪标签的原始无标签数据来训练GAN模型,在满足更新无标签数据集的伪标签条件后更新其中超过某个函数阈值的样本的伪标签,在更新多次之后伪标签值基本与无标签数据的真实标签接近.将本文算法应用到三个常见图片数据集中进行验证,我们发现此算法缓解了半监督分类中对于有标签数据过少带来的分类精度不足的问题,同时GAN的生成器还能学习到真实数据的分布,生成真实度与清晰度尚可的样本,生成数据的模式崩塌现象几乎没有出现.
其他文献
普罗名特集团总部位于德国海德堡市,在全球已拥有41家分公司和60多个代表处.普罗名特中国公司成立于1994年.作为普罗名特集团的独资子公司,它是同行业中进入中国市场最早的外
针对虎峪河流域内无实测水文系列资料的实际情况,采用无资料地区洪水计算的几种方法进行计算,结合现有成果与历史洪水成果进行分析,最终得到较为合理的洪峰流量,为防洪度汛、
重金属氢化物分子的光谱性质和跃迁特性在物理化学反应和分子之间的相互作用中起着十分重要的作用。因此,对重金属氢化物分子的电子态结构以及光谱性质的充分了解显得尤为重要,这也是吸引越来越多的研究人员对其基态和激发态的理论与实验进行研究的主要原因之一。本文使用的是内收缩的多参考组态相互作用(icMRCI)的方法对重金属氢化物(HgH,AgH)分子的基态和激发态的光谱性质和跃迁特性进行理论上的研究,根据Hg
使用两种不同消毒剂消毒种蛋,检测消毒前后种蛋表面活菌数、大肠菌群及沙门氏菌的变化情况,消毒后记录种蛋孵化成绩。结果表明:甲醛熏蒸消毒及百毒杀喷雾消毒均能使种蛋表面活菌
复发性口疮中医认为系“火气内发,上为口糜”,病型繁杂,治则多在于清降郁火,温中补阳,扶持脾胃。近年来我科采用中药敷贴穴位结合药膜法治该病,效果显著,现报告如下:
1病历介绍患者,男性,38岁.因视力模糊3天,近日来视力急剧下降,眼痛和头痛剧烈,伴恶心、呕吐等症状就诊.检查示:结膜混合充血,角膜雾状浑浊,前房浅,房角阻塞,瞳孔呈垂直椭圆散
目的应用高分辨率磁共振血管壁成像(vessel wall magnetic resonance imaging,VW-MRI)研究症状性大脑中动脉(middle cerebral artery,MCA)粥样硬化斑块,探讨斑块特征与梗死类型的关系,推测可能的卒中机制。方法收集2017年12月至2019年2月于东南大学附属中大医院就诊的43例MCA粥样硬化性急性缺血性脑卒中患者的临床资料,并对所有患者
准噶尔盆地玛湖凹陷玛18井区三叠系百口泉组整体已进入油气藏开发阶段,但其储层评价的精度仍处于油层组亚段。为了提高该区目的层储层评价的精度,提高油藏开发的效率,在前人