基于非平行语料的多人语音转换

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cheng_wutao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展以及语音处理技术的突破,语音在生活中发挥了重要的作用,如车载系统的语音助手和安防系统中的声纹识别,为人们的生活提供了极大的便利。其中语音转换是语音生成领域的一个重要子方向,其任务是在保证内容不变、仅改变音色的情况下,将一个人的语音转换成其他人的语音。而基于平行语料的传统语音转换方法对语料的要求影响了语音转换的推广,其语音动态规整的过程中易引入噪音,在该基础上建模多人语音转换有较大的模型代价,所以基于非平行语料的多人语音转换方法有较高的研究价值。对比基于自编码器架构的语音转换模型,基于星型生成对抗网络的转换模型可显式建模多说话人间的转换关系,避免对平行语料的依赖,以领域信息为条件可在单一模型中完成多人语音转换任务。本文以该模型为基础开展了以下工作:本文针对基于辅助分类器生成对抗网络的语音转换模型在目标说话人数量较多时存在无法转换的问题展开研究,提出了两种基于多说话人博弈的多人语音转换方法:基于多说话人博弈的辅助分类器生成对抗网络的语音转换方法和基于类最大化激活与谱归一化的生成对抗网络的语音转换方法。这两种方法通过将说话人信息引入鉴别器进行博弈,完成对说话人音色信息的捕捉。经实验验证,本文所提出的转换算法优于现有最佳的多人语音转换模型AUTOVC,证明了基于多说话人博弈的语音转换模型可有效建模多人语音转换任务。在前述工作基础上,为了进一步提高转换相似度和转换音频质量,本文提出了基于自注意力机制与知识迁移的语音转换方法。转换相似度方面,本文通过在转换模型中引入一维自注意力机制提高模型对数据特征的频次结构信息的捕捉能力。该方法可直接以距离为1的路径进行各频次信息的全局观察整合,帮助模型捕捉数据特征的内部相关性。生成样本中可观察到转换细节的有效提升。另外参考现有自然语言处理领域的语言模型以及对应计算机视觉领域中预训练模型的使用,本文提出使用基于说话人分辨任务的预训练模型为语音转换模型提供迁移声纹向量嵌入。在说话人数量较多的语料集上,该方法通过为模型提供有效编码音色知识可帮助减少模型的不确定性,提高模型性能。转换音频质量方面,综合考虑多人语音转换对可迁移声码器的需求,本文讨论并设计相关实验验证了Wave Glow的可迁移声码器性质。该声码器可与本文提出的基于中文语料和英文语料的转换模型结合,将转换后的声学特征恢复为音频,提高转换音频的质量。
其他文献
根际是养分、水分等物质进入植物根系的门户,根际微生物是植物根部微生态系统的重要组成部分,在土壤有机质分解、各类养分吸收和植被生长发育等方面有着重要的作用。根际土壤
<正>本文以跨越"中等收入陷阱"作为研究的目标与国际经验比较的标准,选取7个成功跨越"中等收入陷阱"和7个尚未成功的新兴经济体作为研究样本,分别构造1961~2010年面板数据的计
会议
2004年11月25日,国家发改委发布了《节能中长期专项规划》,这是我国政府制定实施的第一部节能中长期专项规划。我国的冶金、机械、化工这些重要工业的比重达到50%以上.我国工业进
宋江是《水浒传》中的核心人物,其性格的反抗性和妥协性使梁山事业出现兴与败。他仗义助人的品德、"替天行道"、"忠义两全"的纲领,使成梁山事业及其本人奋斗的兴旺与成功;他忠义
研究取代严重污染环境的六价铬电镀的技术和应用,可以从源头上治理电镀对环境的污染.当前国内外都在研究取代六价铬电镀的技术,实践表明,取代六价铬电镀,将明显改善环境治理
对一台二冲程汽油自由活塞式内燃直线发电机(FPLG)的活塞动态特性、缸内压强、缸内温度和NOx排放进行了数值分析。针对FPLG特点,具体分析了其NOx污染物的来源及形成机理。借助