论文部分内容阅读
类别不平衡问题在机器学习中比较常见,往往会对学习过程产生一定负面影响。对数据集中的少数类样本进行扩充,是解决类别不平衡问题的一种有效手段。对于低维数据,已经有多种经典方法可以进行有效的数据扩充;而在图像这种高维数据上,经典方法则不能发挥有效的作用。针对图像数据扩充,现在常用的手段多为基于图像变换的过采样方法。这类方法一定程度上可以减小类别不平衡问题带来的负面影响,但往往效果有限。生成对抗网络作为神经网络模型的一种,近年来得到了广泛的关注与研究。输入一类样本,生成对抗网络可以输出与这类样本非常相似的人工样本。利用这个性质,本文使用生成对抗网络进行图像数据扩充,缓解图像类别不平衡问题给分类任务带来的影响,并就人工样本中的底层噪声问题进行了分析,出了解决方案。本文的主要贡献包括:1)结合循环一致性对抗网络(CycleGAN)的设计思想与残差块的结构,设计了适用于图像扩充任务的CycleGAN。2)使用CycleGAN扩充少数类图像样本,升了分类器在图像类别不平衡问题中的分类性能,同时通过对比实验探讨了人工样本数量等多种因素对实验结果产生的影响。3)分析了Cycle GAN生成的人工样本中存在的底层噪声问题,展示了底层噪声给分类器带来的负面影响。4)出了通过固定分类器来训练图像的方法,削弱人工样本的底层噪声,进一步高了分类准确率,同时使得重复实验的结果更加稳定。