论文部分内容阅读
随着语音信号处理技术的日趋成熟,说话人的个性语音信息受到人们越来越多的重视。个性化语音生成指的是生成具有特定目标说话人个性特征的语音,它有着广泛的应用前景:如在语音合成领域用于合成个性化语音;在保密通信领域用作说话人身份的伪装;在医疗卫生领域用于受损语音的恢复等。说话人自适应和语音转换可以看作个性化语音生成最常用的两种技术,在很多情况下,说话人自适应可以认为是语音转换的一种特殊情况。语音转换指的是改变一个说话人的语音个性特征,使之具有目标说话人的语音个性特征,而语义信息保持不变的一种技术。本文主要围绕着语音转换的相关方法和技术展开探讨,重点研究了语音频谱特征的转换方法,对于F0的映射方法也进行了讨论,同时,针对非对称语音库情况下的语音转换也提出了切实有效的解决方案。论文的主要工作和创新点包括以下几个方面: 首先,本论文在对基于经典高斯混合模型方法(Gaussian Mixture Model, GMM)的语音转换方法的研究基础上,针对其存在的过拟合、不连续、过平滑等问题分别提出了相应的改进方法。在GMM模型训练阶段,加入了不同高斯分量之问的相似度的约束条件,提高了建模的精度,从而在一定程度上能够提高转换函数的准确性。当训练数据过少而模型复杂度较高时,会产生较为严重的过拟合问题。为了解决过拟合问题,我们提出了两种方法:主成分回归方法(Principal ComponentsRegression,PCR)和核主成分回归方法(Kernel Principal Components Regression,KPCR)。相关实验结果分析表明:由于特征转换是基于帧进行的,忽略了相邻帧之间的相关性,在很大程度上会造成转换后语音的不连续;同时,由于高斯模型的加权平均效应会造成转换语音频谱的过平滑。针对这两个问题,本文从研究后验概率信息的角度出发,发现对于一帧语音频谱特征,GMM模型的某一高斯分量总是占据主导地位,并且相邻帧的最大后验概率在不同高斯分量之间的变换是非常快速的,这在很大程度上造成了转换语音的不连续性。针对不连续问题,本文采用自适应中值滤波对后验概率进行平滑;同时,针对过平滑问题,我们选择后验概率最高的两个高斯分量对应的映射函数作为转换函数。这些算法在一定程度上解决了GMM语音转换方法存在的过拟合、不连续和过平滑等问题,从而实现了提升转换性能的目标。 其次,针对频谱特征的转换,本文利用支持向量回归方法(Support Vector Regression,SVR)做了深入的研究,通过SVR方法构建了源说话人和目标说话人之间的非线性映射关系。由于传统的SVR方法是针对多维输入单维输出的情况提出的,而本文研究的频谱特征转换是一种多输入多输出的情况,针对这一问题,我们采用了多输出SVR方法;同时,由于单一映射很难准确描述不同说话人的频谱特征之间的关系,进而我们提出了GMM和SVR相结合的方法;最后,针对说话人语义和个性特征分离的情况,我们做了初步的分析讨论,提取低阶的频谱特征来表达语义信息,同时提取高阶的频谱特征来表示说话人个性特征,通过SVR方法建立语义和说话人个性特征之间的映射关系。实验结果表明,SVR方法能够取得比传统GMM方法更好的转换效果,同时基于说话人语义信息和个性特征分离的语音转换方法是可行的。 第三,目前的语音转换主要是集中在频谱特征转换方法的研究上,但是韵律特征特别是基音频率(F0)对语音转换也至关重要。本文围绕着F0转换这一话题进行了讨论与研究,详细分析了目前几种主要的FO转换方法。我们从频谱特征和F0相关性的角度出发,提出通过转换后的频谱特征对F0进行预测;同时,为了进一步提升F0转换的准确度,进一步提出了F0预测和高斯归一化方法相融合的转换方法。本算法在主客观实验中都取得了比传统高斯归一化和GMM等方法更好的效果。 最后,现实条件下对称语音数据很难录制和直接获取,在这种情况下,传统的语音转换方法很难直接运用。针对这一问题,我们首先提出了一种基于说话人模型对齐的语音转换方法,在这种方法里,通过对说话人模型分量进行迭代对齐来训练得到频谱特征转换函数,取得了明显优于传统INCA语音转换方法的效果。同时,目前的语音转换方法需要大量的源说话人和目标说话人的语音数据,在实际情况中大量的对称语音数据很难获取,针对这一情况,受到说话人识别中自适应思想的启发,本文提出了基于模型自适应技术的语音转换方法。在这种方法里,首先训练得到背景说话人模型,然后通过MAP自适应方法分别自适应训练得到源说话人和目标说话人的模型,接着利用自适应说话人模型的均值和协方差等模型参数,分别提出了基于高斯归一化和模型均值映射的频谱特征转换方法。为了进一步提高转换函数的准确度,进而提出了高斯归一化和模型均值映射相融合的方法。同时,由于训练数据有限,很难保证说话人模型的每一高斯分量的参数都被更新,我们采用了KLD(Kullback-Leibler divergence)在转换过程中对模型进行优化。实验结果验证了基于模型自适应的语音转换方法在性能上接近基于对称语音库的GMM方法的效果。