论文部分内容阅读
随着计算机技术的发展以及语音处理技术的突破,语音在生活中发挥了重要的作用,如车载系统的语音助手和安防系统中的声纹识别,为人们的生活提供了极大的便利。其中语音转换是语音生成领域的一个重要子方向,其任务是在保证内容不变、仅改变音色的情况下,将一个人的语音转换成其他人的语音。而基于平行语料的传统语音转换方法对语料的要求影响了语音转换的推广,其语音动态规整的过程中易引入噪音,在该基础上建模多人语音转换有较大的模型代价,所以基于非平行语料的多人语音转换方法有较高的研究价值。对比基于自编码器架构的语音转换模型,基于星型生成对抗网络的转换模型可显式建模多说话人间的转换关系,避免对平行语料的依赖,以领域信息为条件可在单一模型中完成多人语音转换任务。本文以该模型为基础开展了以下工作:本文针对基于辅助分类器生成对抗网络的语音转换模型在目标说话人数量较多时存在无法转换的问题展开研究,提出了两种基于多说话人博弈的多人语音转换方法:基于多说话人博弈的辅助分类器生成对抗网络的语音转换方法和基于类最大化激活与谱归一化的生成对抗网络的语音转换方法。这两种方法通过将说话人信息引入鉴别器进行博弈,完成对说话人音色信息的捕捉。经实验验证,本文所提出的转换算法优于现有最佳的多人语音转换模型AUTOVC,证明了基于多说话人博弈的语音转换模型可有效建模多人语音转换任务。在前述工作基础上,为了进一步提高转换相似度和转换音频质量,本文提出了基于自注意力机制与知识迁移的语音转换方法。转换相似度方面,本文通过在转换模型中引入一维自注意力机制提高模型对数据特征的频次结构信息的捕捉能力。该方法可直接以距离为1的路径进行各频次信息的全局观察整合,帮助模型捕捉数据特征的内部相关性。生成样本中可观察到转换细节的有效提升。另外参考现有自然语言处理领域的语言模型以及对应计算机视觉领域中预训练模型的使用,本文提出使用基于说话人分辨任务的预训练模型为语音转换模型提供迁移声纹向量嵌入。在说话人数量较多的语料集上,该方法通过为模型提供有效编码音色知识可帮助减少模型的不确定性,提高模型性能。转换音频质量方面,综合考虑多人语音转换对可迁移声码器的需求,本文讨论并设计相关实验验证了Wave Glow的可迁移声码器性质。该声码器可与本文提出的基于中文语料和英文语料的转换模型结合,将转换后的声学特征恢复为音频,提高转换音频的质量。