论文部分内容阅读
随着基于语料库语音合成技术的日益成熟,合成语音的自然度、可懂度都有了很大的提高,使语音合成的应用日益广泛.但由于容量和语料库制作代价的限制,合成语料库通常只保留少数、甚至只有一个发音人的语音数据,合成语音的音色只能是特定发音人的音色.然而随着人们个性化需求的日益强烈,人们希望听到自己喜欢的音色.该文提出一种与语音合成系统相结合的说话人转换技术,仅需少量的目标发音人训练数据,便能够使合成系统合成出具有目标发音人特征的语音.该文分为三部分:第一部分首先对说话人转换的方法进行总体介绍,说话人转换技术就是对源说话人的音色进行转换使其听起来像目标说话人发出的.为了实现说话人音色的转换,通常需要对语音信号进行激励源和声道滤波器的分离,以便对激励信号和声道模型分别进行修改,然后再重新生成语音.为了更好的理解这一过程,这一部分我们也对人的发音过程的声学机理和数学模型进行了系统介绍.最后我们对说话人转换技术的发展和常用的方法进行一个简要介绍.第二部分则是对最常用的两类说话人转换方法:基于GMM的方法和基于码本映射的方法,进行一个系统的分析与比较.通过分析和对比,我们发现两种方法存在很多相似之处.而相对而言,基于码本映射的STASC方法所需训练数据少、训练复杂度较低,这对于系统实用化非常有利.因此我们最终选择了STASC码本映射的方法作为基本框架进行改进.然而目前码本映射方法的最大问题在于:1.转换后语音音质较差;2.转换频谱共振峰不清晰,语音与目标发音人不接近.转换后音质较差主要是因为原有的LPC分析方法不能实现激励源和声道模型的良好分离,对激励源和声道进行转换后两者无法很好的配合,导致音质下降.而转换语音与目标发音人不接近则主要因为原有加权叠加方法很可能将听感上差异较大的频谱进行叠加,这种叠加会带来说话人频谱特征的平滑.根据以上分析,在第三部分我们提出一种新的基于码本映射的说话人转换方法.首先我们利用STRAIGHT算法对激励源和声道滤波器进行良好分离以分别转换.同时我们实现了一个编解码算法以对STRAIGHT分析得到的参数进行有效存储.接下去我们提出了一种基于音素绑定的码本加权策略转换频谱,以降低码本加权叠加时对说话人特征的平滑效应.最后我们提出一种基于决策树的韵律转换方法以转换复杂的汉语韵律.听觉测试证实我们的方法仅需少量的训练数据便能够有效地对说话人特征进行转换,同时保持良好的音质.由于我们的算法复杂度低,因此他能够被广泛应用于手机、PDA等资源受限领域,具有极大的实用价值和应用前景.