论文部分内容阅读
汉语语音转换研究内容是通过语音处理手段改变汉语语音中的说话人个性信息,使得改变后的语音听起来像是由另外一个说话人发出的。本文分析了语音特征中蕴藏的说话人个性信息,针对转换语音音质下降的问题提出了在时域和频域抑制转换特征过平滑问题的方法,针对汉语基频的特点提出了基于pitchtarget模型的基频转换算法,最后将汉语语音转换技术应用在汉语情感语音合成研究中。论文涉及到的主要工作有:
1.分析了说话人个性信息的声学表征问题。我们把基于同一文本的语音所存在的差异分为生理性差异和态度性差异。在生理性差异分析中,论文研究了不同说话人在以共振峰为代表的声道特征和以声门波参数为代表的声源特征中的差异性。在态度性差异分析中,论文主要分析了情感语音相对于中性语音在韵律参数上的不同。
2.提高了转换语音的音质。针对高斯混合模型映射方法的过平滑转换特征导致的转换语音音质下降问题,论文从时域和频域两个方面来解决。针对时域过平滑现象提出了高斯混合模型和码本映射相结合的混合映射算法,针对频域过平滑问题提出使用锐化共振峰带宽的后滤波方法。
3.提出了适用于汉语的基频转换方法。针对汉语基频的特点,提出了基于pitchtarget模型的基频转换方法。实验表明pitchtarget模型具有很强的汉语基频描述以及转换能力,通过转换pitchtarget模型参数既可以转换基频曲线所在的调域,又可以改变基频曲线的走势使得转换基频曲线和目标基频曲线在形状上更趋于一致。
4.构建了汉语情感语音转换系统。论文选择使用可重建高质量语音的STRAIGHT算法构建汉语语音转换系统,并将此系统应用在情感语音转换中。由于使用了基于pitchtarget模型的基频转换算法,不但转换了中性基频曲线的调域,而且改变了基频曲线的形状获得了对应情感基频曲线的走势,因此成功地实现了情感语音转换。
5.提出了基于频域子带预测的非线性共振峰估计算法。论文提出了一种基于频域子带自动预测的语音多成分分离算法,避免了以前方法的经验参数选择问题。以提出的频域子带为基础,我们将此非线性分析方法应用在共振峰估计中,准确鲁棒地进行了共振峰估计并且避免了繁杂的共振峰轨迹跟踪算法。