论文部分内容阅读
语音转换是一种改变源说话人的语音个性特征,使之听起来像另外一个我们称为目标说话人的声音的技术。语音转换的基本要求是转换后的语音具有目标说话人的个性特征,但是并不改变原来说话人语音中的语意内容。虽然语音转换这个课题的提出已有二十多年的历史,但真正引起广泛关注并得到快速发展就在这最近的几年,可以说语音转换是语音信号处理的一个新兴研究方向,具有重要的理论价值和广泛的应用价值。本课题主要研究语音转换系统的基本理论和关键技术。
本文主要研究了对齐语音库下的语音转换方案。即在训练阶段我们有源说话人和目标说话人说相同语音的波形文件条件下的转换。本文着眼点是在高质量的STRAIGHT(Speech transformation and representation using adaptive interpolation of weighted spectrum)语音分析合成模型下所做的一些工作。本文主要完成了以下几方面的工作:
首先,简单介绍了论文的研究背景,语音转换的研究状况。给出了语音转换系统中涉及到的一些基本概念包括语音发音系统,语音转换结构图,语音转换实现的关键要素,常用的评价标准以及语音库的设计。还介绍了本文所涉及到的基本模型,包括语音分析合成模型线性预测模型(LPC)和STRAIGHT模型以及概率统计模型高斯混合模型(GMM)。并指出了STRAIGHT模型优于LPC模型的地方,以及如何利用STRAIGHT模型获得我们所关心的表征说话人个性特征的参数信息。
其次,列举了目前已有的关于语音转换的一些算法。给出了韵律转换方法的改进方案。还讨论了基于STRAIGHT模型的语音转换方案,分别从训练数据的准备,转换方案的选择,到最后合成具有目标说话人个性特征的语音几个方面进行探讨,并给出了所提方案仿真结果的分析和评价。
最后,总结了本文的工作,并指出了今后有待于进一步研究的方向。