论文部分内容阅读
在不改变说话内容的前提下,实现源说话人声音向特定说话人声音的转换,其研究是在说话人识别和语音合成的研究基础上进行的,同时也是这两个领域的丰富和延拓,具有非常广阔的应用前景和理论研究价值。目前,声音转换的研究大多集中在声道谱参数的转换上,对于影响语音音色和听感的激励源及其韵律特征,由于提取和建立数学模型的困难,其研究较少。为了使转换后的语音音色具有更多的目标说话人倾向性,本文主要针对激励源和韵律特征的转换进行了相应研究,主要工作如下: 1 对于与文本无关的源—目标声音转换,本文给出了一种基于混合高斯模型(GMM)的分类线性加权组合映射方法。该方法对短时特征参数采用GMM描述参数空间的连续概率分布,并将其作为分类器,可在一定的分类数下利用概率加权组合获得远大于分类数的映射规则,提高了转换效果。实验表明,该方法明显优于基于矢量量化(VQ)的分类线性变换方法的转换效果。 2 声门激励的形状对合成语音的音色影响很大,通常采用声门闭合期间估计得到的声门波导数作为激励信号,对于声门激励的转换,本文提出了一种基于勒让德正交多项式分解的声门波导数波形参数化的方法。该方法将声门波导数波形的n维勒让德正交空间坐标组成的声门波导数特征矢量,去除了矢量中各维参数的冗余,因而对该特征矢量作相应源—目标的转换,相对于普通多项式系数构成的特征矢量而言,转换效果更好。