论文部分内容阅读
耳语音转换为正常语音在通信系统、安全保密系统、金融系统、医学等领域有着广泛的应用前景。汉语耳语音的转换目前仍处于研究的初级阶段,由于汉语耳语音与正常语音的巨大差异,在实现汉语耳语音向正常语音的正确转换和获得较高的语音质量方面还有许多亟待解决的问题。
本文对耳语音向正常语音的转换机理进行了比较深入地研究,并确立了按照语音分析-综合的思路研究汉语耳语音转换的原理与方法。为便于耳语音转换系统今后实际应用于通信等领域,采用修正的混合激励线性预测声码器为汉语耳语音转换系统的合成模块。以合成语音所需参数为目标,重点研究了耳语音与正常音的激励特征与声道谱特性的差异,指出实现汉语耳语音转换在特征与模型方面目前面临和需要解决的几个关键问题。针对这些问题,本文做了以下几方面的工作:
1、对汉语耳语音的声学特征进行研究分析,提出基于多尺度特征的汉语耳语音端点检测及声韵分割方法。韵母是汉语音语义的主要载体,并且耳语音与正常音的差异主要在韵母部分,它是汉语耳语音转换的主要研究对象,因此在汉语耳语音预处理部分,声韵母的准确分割非常重要。本文根据汉语耳语音非线性及混沌特性,分别采用分形维特征和子波能量比特征实现耳语音的端点检测和声韵分割。改善了汉语耳语音的声韵分割的准确率,该方法具有在低信噪比下具有较高的鲁棒性和与说话人及文本无关的优点,可用于汉语耳语音的转换与识别的预处理。
2、对汉语耳语音的听觉感知特征进行研究分析,提出了基于听觉计算模型的汉语耳语音基频轨迹重构方法。根据听神经发放信息是听觉中枢的唯一信息来源,它是对于语音信号的声强、频谱、共振峰等多种声学特征的综合反应这一理论依据,以听神经平均发放率为线索感知汉语耳语音声调及音高,提出了汉语耳语音音调的定量描述方法。在感知耳语音音高及声调的基础上重构基频轨迹,为汉语耳语音的转换提供重要的激励信息。以声调识别率结果验证了该方法与主观听觉感知吻合。
3、对耳语音与正常语音的声道特征异同进行了深入研究,提出一种基于概率加权高斯混合模型的汉语耳语音声道特征转换方法,并提出汉语耳语音的声道特征转换误差的客观评价方法。该方法建立了耳语音声道模型与对应的正常语音声道模型之间的映射关系。与相关文献中对声道参数采用全局线性偏移的方式相比,这种“柔性”的转换方式更加细致地实现声道模型之间的转换,更加符合语音及说话人个性特征的多变性,为汉语耳语音的转换提供重要的支撑。
4、在对汉语耳语音声学特征提取及转换的基础上,以修正混合激励线性预测声码器为合成模型实现了汉语耳语音转换。本文以混合激励线性预测声码器为原型,根据汉语耳语音的特点对合成模型的参数进行调整与设置,建立一个适合耳语音转换的合成模型,对激励与声道处理部分所提供参数的准确性进行了检验。对转换结果在语义、语音自然度等方面的评价结果表明基于该汉语耳语音转换系统的转换语音达到了通信质量。