语音转换关键技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:R845451732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是一种改变源说话人的语音个性特征,使之听起来像另外一个我们称为目标说话人的声音的技术。语音转换的基本要求是转换后的语音具有目标说话人的个性特征,但是并不改变原来说话人语音中的语意内容。虽然语音转换这个课题的提出已有二十多年的历史,但真正引起广泛关注并得到快速发展就在这最近的几年,可以说语音转换是语音信号处理的一个新兴研究方向,具有重要的理论价值和广泛的应用价值。本课题主要研究语音转换系统的基本理论和关键技术,本课题得到国家863重大项目的资助。 实现语音转换的关键首先在于找出一个很好的语音分析合成模型,从该模型中能提取出决定说话人身份的声学特征信息,并且通过该模型分析后,可以从语音信号中提取出相对独立的特征信息,以便针对各个信息分别修改时不会受到内在的约束。其次在于找出表征源说话人和目标说话人个性特征的语音特征参数之间的映射关系,得到修改源说话人特征参数的规则。 本文主要研究了对齐语音库下的语音转换方案。即在训练阶段我们有源说话人和目标说话人说相同语音的波形文件条件下的转换。本文着眼点是在高质量的STRAIGHT(Speeehtransformationandrepresentationusingadaptiveinterpolationofweightedspectrum)语音分析合成模型下所做的一些工作。本文主要完成了以下几方面的工作:(1)阅读国内外文献,了解语音转换的研究现状,熟悉各种语音转换方法的基础上,对其进行了优劣的比较。(2)在声道谱转换方面,分析了转换谱出现过平滑的原因,并给出了两种可行的改进方案。除此,还给出了一种性能上优于VQ码本映射方案的谱转换方案。(3)在韵律转换方面,对时长、基频和能量均做了分析。对时长的处理,主要是在训练阶段,运用时域基音同步叠加(TDPSOLA-timedomainpitchsynchronousoverlapadd)技术,调整源说话人的语速,使之与目标说话人相一致。对基频的处理,在传统的简单的线性转换方案基础上提出了改进方案,使得预测的基频曲线更接近目标说话人的基频曲线。对能量做了类似于基频修改方案的修改。(4)最后对转换语音的质量分别从主观和客观两个方面给出评价。 论文具体安排如下: 在第一章绪论中简单介绍了论文的研究背景,语音转换的研究状况以及本文的工作安排。 在第二章给出了语音转换系统中涉及到的一些基本概念包括语音发音系统,语音转换结构图,语音转换实现的关键要素,常用的评价标准以及语音库的设计。 第三章介绍了本文所涉及到的基本模型,包括语音分析合成模型线性预测模型(LPC)和STRAIGHT模型以及概率统计模型高斯混合模型(GMM)。并指出了STRAIGHT模型优于LPC模型的地方,以及如何利用STRAIGHT模型获得我们所关心的表征说话人个性特征的参数信息。 第四章列举了目前已有的关于语音转换的一些算法。 在第五章着重讨论了作者提出的基于STRAIGHT模型的语音转换方案,分别从训练数据的准备,转换方案的选择,到最后合成具有目标说话人个性特征的语音几个方面进行探讨,并给出了所提方案仿真结果的分析和评价。 最后一章总结了本文的工作,并指出了今后有待于进一步研究的方向。
其他文献
期刊
期刊
期刊
期刊
期刊
期刊
期刊
期刊
期刊
期刊