论文部分内容阅读
语音转换是指改变一个人(源说话人)的语音个性特征使之具备另一个人(目标说话人)的语音个性特征,从而使源说话人的语音听起来像目标说话人的语音的一种语音处理技术。随着现代生活水平的提高,人们不再单单追求语音的可懂度,而更加强调语音的个性化特征,因此,该技术的研究不仅具有重要的理论意义,同时也具有巨大的应用价值,正逐渐成为语音处理领域的研究热点之一。
本文主要研究语音转换技术的基本理论和方法,介绍了语音韵律转换和谱包络转换的基本概念和方法,重点研究了基于高斯混合模型的谱包络转换算法的原理和实现,论文的主要工作如下:
首先,本文研究了传统的基于高斯混合模型的谱包络转换算法,该算法在转换函数训练时采用期望最大算法(EM算法),由于其具有局部收敛特性,导致模型的参数估计对初值较敏感,且容易收敛到一个局部最优值,本文将该算法与具有全局优化特性的遗传算法相结合,利用遗传算法的并行搜索和全局寻优特性对其加以改进,将其应用到语音转换的过程中,通过仿真实验分析了算法的性能。
其次,本文研究了基于模糊高斯混合模型的谱包络的转换算法,该模型与传统的高斯混合模型算法的主要不同在于对特征矢量的划分采用了模糊聚类技术。本文描述了基于模糊高斯混合模型的谱包络转换算法的具体实现,并结合STRAIGHT语音分析合成模型实现了基于模糊高斯混合模型算法的语音转换系统,通过仿真实验对比分析研究了传统高斯混合模型和模糊聚类高斯混合模型在谱包络转换效果方面的异同,分析了转换后的语音质量,并对存在的问题和不足做了简要阐述。