非平行文本条件下基于Multi-Scale StarGAN的共享训练的多对多语音转换研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:teddy18chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换的目标是将源说话人的语音进行转换,使其听起来像是目标说话人发出的声音,语义保持不变。语音转换可分为平行语料的语音转换和非平行语料的语音转换,区别在于用于训练的语料库中源说话人和目标说话人的语音内容和持续时间是否相同。但是,在语音转换的实际应用中,由于获取大量平行语料很困难,在有些情形下甚至不可实现,因此研究非平行语料下的语音转换成为亟需解决的问题。语音转换的评价指标主要包括两个方面:语音的音质和个性相似度。现有的非平行语音转换模型很难在这两个维度同时获得好的性能。本文重点研究了基于StarGAN语音转换模型,并针对上述两个问题提出了一系列改进。首先,为了改善转换后语音的音质,使其听起来更加逼真细腻,本文使用Multi-Scale结构来改进基准系统,提出基于Multi-Scale StarGAN的语音转换方法,提取目标说话人全局特征的不同级别的多尺度特征,增强了转换后语音的细节。通过主观和客观实验来验证改进的语音转换模型的性能,与基于StarGAN的语音转换模型相比,转换后语音的时域波形更加平稳,接近目标说话人,语谱图也更为清晰,平均MOS提高了21.8%,平均ABX提高了5.56%。结果表明,该方法在提高语音相似度的同时也有效提高了合成音质。其次,考虑到StarGAN通过训练鉴别器和分类器来训练生成器实现语音转换,因此通过使用Share-Learning训练鉴别器和分类器的共享模块Share-Block,本文提出基于ShareLearning的StarGAN的语音转换方法,改进鉴别器和分类器的性能,从而改善训练的稳定性和加快收敛速度,提高了合成语音的音质和相似度。充分的主观和客观评价表明,与基于StarGAN的语音转换模型相比,平均MOS提高了15.79%,平均ABX提高了2.38%。进一步,将本文的两个创新点进行结合,将Share-Learning加入到Multi-Scale StarGAN方法中,提出基于Multi-Scale StarGAN的共享训练的语音转换方法,经过主观和客观评价表明,该方法与Multi-Scale StarGAN方法转换后的语音相比,转换后语音的时域波形更加平稳,接近目标说话人,转换后语音的语谱图更加清晰,平均MOS提升了3.57%,平均ABX值提升了3.30%,说明该方法在语音音质和说话人个性相似度方面都有较大的提升。与基于StarGAN的语音转换模型相比,平均MOS提高了28.95%,平均ABX提高了9.03%。充分实验结果表明,该方法在提高语音相似度的同时提高了语音质量。
其他文献
日本汽车制造商拥有快速技术创新能力,国内一些学者将其归功为日本汽车制造商的高比例R&D经费投入强度.提出日本汽车制造商之所以能够保持快速技术创新能力,关键在于日本汽车
<正> 在煤田地震勘探中,体积小而且移动灵活的非炸药震源要比常规的炸药震源更能适应空间狭窄或地表条件复杂的现场的作业要求;而将纵波(P)和横波(S)相互结合起来,可以大幅度
煤尘的润湿性是煤的一种物理化学特性,在煤矿现场,煤的润湿性好坏直接影响到煤尘注水技术成功与否。通过改变煤的物理、化学及力学性质润湿煤体,注入水或水溶液润湿原生煤,包
目的:定量检测单次电流激励所携带的阻抗分布信息在电阻抗断层成像(EIT)重构过程中的权重,分析对EIT重构图像质量影响。方法:利用人颅脑CT建立三维真实颅脑模型进行仿真实验研究