论文部分内容阅读
语音转换的目标是将源说话人的语音进行转换,使其听起来像是目标说话人发出的声音,语义保持不变。语音转换可分为平行语料的语音转换和非平行语料的语音转换,区别在于用于训练的语料库中源说话人和目标说话人的语音内容和持续时间是否相同。但是,在语音转换的实际应用中,由于获取大量平行语料很困难,在有些情形下甚至不可实现,因此研究非平行语料下的语音转换成为亟需解决的问题。语音转换的评价指标主要包括两个方面:语音的音质和个性相似度。现有的非平行语音转换模型很难在这两个维度同时获得好的性能。本文重点研究了基于StarGAN语音转换模型,并针对上述两个问题提出了一系列改进。首先,为了改善转换后语音的音质,使其听起来更加逼真细腻,本文使用Multi-Scale结构来改进基准系统,提出基于Multi-Scale StarGAN的语音转换方法,提取目标说话人全局特征的不同级别的多尺度特征,增强了转换后语音的细节。通过主观和客观实验来验证改进的语音转换模型的性能,与基于StarGAN的语音转换模型相比,转换后语音的时域波形更加平稳,接近目标说话人,语谱图也更为清晰,平均MOS提高了21.8%,平均ABX提高了5.56%。结果表明,该方法在提高语音相似度的同时也有效提高了合成音质。其次,考虑到StarGAN通过训练鉴别器和分类器来训练生成器实现语音转换,因此通过使用Share-Learning训练鉴别器和分类器的共享模块Share-Block,本文提出基于ShareLearning的StarGAN的语音转换方法,改进鉴别器和分类器的性能,从而改善训练的稳定性和加快收敛速度,提高了合成语音的音质和相似度。充分的主观和客观评价表明,与基于StarGAN的语音转换模型相比,平均MOS提高了15.79%,平均ABX提高了2.38%。进一步,将本文的两个创新点进行结合,将Share-Learning加入到Multi-Scale StarGAN方法中,提出基于Multi-Scale StarGAN的共享训练的语音转换方法,经过主观和客观评价表明,该方法与Multi-Scale StarGAN方法转换后的语音相比,转换后语音的时域波形更加平稳,接近目标说话人,转换后语音的语谱图更加清晰,平均MOS提升了3.57%,平均ABX值提升了3.30%,说明该方法在语音音质和说话人个性相似度方面都有较大的提升。与基于StarGAN的语音转换模型相比,平均MOS提高了28.95%,平均ABX提高了9.03%。充分实验结果表明,该方法在提高语音相似度的同时提高了语音质量。