论文部分内容阅读
2014年由Goodfellow等人提出的生成对抗网络(Generative Adversarial Nets,GANs)提供了一种极具创新性的数据生成方式。相较于传统生成模型,GANs的生成器与判别器之间互相博弈的对抗训练模式显著提升了数据的生成质量。同时,GANs的训练框架非常灵活,对生成器和判别器的具体形式没有特殊约束,只要求二者满足可微性条件即可,这也为GANs的广泛应用前景奠定了坚实的基础。虽然GANs在各种数据生成任务中取得了一系列优异的成果,然而其自身也存在很多极具挑战性的问题尚未得到充分解决,如:条件生成问题(即条件可控的数据生成)、离散数据反传时梯度丢失问题、训练鲁棒性问题(如模式塌陷)等。这些不足之处限制了GANs在不同任务领域中的进一步应用,如可控面部属性的图片生成、离散音乐数据生成等等。因此在具体应用中需要创建更为鲁棒的生成对抗模型,结合任务自身的特点对模型进行优化以规避或解决上述缺陷。针对这些问题的探索一直在持续进行并取得了一定的进展,但离最终解决还有一定距离。本文对GANs的发展现状进行了梳理,分析了现有GANs方案中尚待解决的问题,进一步结合具体应用提出多个基于GANs的关键技术与解决方案,并通过一系列实验从实践层面对方案给予了验证,具体工作概述如下:(1)提出了属性可编辑的迭代生成对抗模型Iterative GANs以解决GANs的面部属性条件生成问题。在训练过程中对样本进行逆向的迭代回归,解析出样本相关的隐变量和语义信息明确的条件变量,生成器G可以基于此建立映射关系完成对样本的重建。同时,对条件变量进行对应维度的属性修改后,模型可在统一的GANs框架内完成条件生成、属性编辑和属性迁移等多个任务。最后,在人脸属性数据集上对该方案进行了实验验证。(2)提出堆叠渐进式的音乐生成对抗网络Stack-Chord-GANs,分阶段由粗至细地对音乐旋律进行生成,通过对数据约束的加强降低了GANs的学习难度,解决了GANs对离散的音乐时序数据生成支持不足的问题。Stack-Chord-GANs结合了音乐数据独有的先验知识,将和弦等重要乐理信息数据引入到生成对抗训练的过程中,并以两种不同的编码模式(基于先验概率的稠密编码、基于根音注意力机制的R-chord2vector编码)对和弦编码,在解决GANs对离散数据回传支持度问题的同时,也让模型能关注到和弦中的主要乐理信息。同时,为了缓解GANs训练过程中普遍存在的模式塌陷问题,增强数据生成的多样性,对生成器应用了基于滑动平均值的方差最大化正则约束方法,避免生成数据被聚集在小范围样本空间中。通过对比实验证实,Stack-Chord-GANs在客观指标衡量和主观听觉测试两个方面的实验评测中都优于现有方法。(3)提出自监督学习的全局分组策略生成对抗网络GGS-GANs,将GANs与特定应用领域结合并验证了GANs的自监督学习机制对实际任务生成数据的质量提升效果。方案结合任务特点提出全局分组策略对生成器G和判别器D进行能力增强,同时在生成对抗训练环节中引入对分组信息进行预测的自监督学习子任务,以此强化判别器的特征抽取能力,并反向提升生成器的生成能力。经试验证明,生成对抗机制的引入、全局分组策略的应用、自监督学习子任务的加入极大地提升了模型的预测能力,对轮廓点的预测生成效果优于现有方法。