论文部分内容阅读
语音转换是一项改变说话人声音特征的技术,是将源说话人声音转化为具有目标说话人特征信息声音的方法。语音转换是语音信号处理领域的一个较新的分支,涉及信号处理、声学语言学、人工智能、模式识别和计算机科学等学科领域,它的研究对语音分析、语音编码、语音合成、语音增强和语音识别等语音信号处理领域有重要的促进作用。语音转换研究语音模型中各特征参数的变化规律,对语音参数的合成、语音编码技术的进步、说话人加密和模拟技术的发展有着重要的促进作用;同时它在电影、电视节目中的配音、数字化的娱乐等多媒体方向、医学领域、刑侦及保密通信等方面也有着广泛的应用。语音转换技术是对说话人识别和语音合成技术的丰富和延拓,有着良好技术发展前景。因此语音转换技术的研究具有广阔的应用前景和重要的理论研究和实用价值。本论文采用线性预测分析系数波形-叠接合成法实现语音转换,是基于提取源语音和目标语音特征的线性预测系数转化的线谱对频率,建立联合参数的高斯混合模型训练法,采用最大期望法估计联合矢量高斯混合模型的参数来确定转换规则,据转换规则将源语音转换为预测语音,再将预测语音通过波形叠接法合成出转化后具有目标说话人特征的语音。其中,在语音信号转换的处理中,需要将线性预测系数与线谱对频率参数相互转换。本文采用利用余弦函数特性改进的Chebyshev多项式求根法,将余弦函数转换为高次幂函数再进行搜索求根,来实现语音特征的线性预测系数与线谱对参数的转化。