论文部分内容阅读
语音合成是人机交互的关键技术之一。随着电子计算机的迅猛发展,语音合成技术由早期的基于拼接调整合成,逐渐发展为目前基于参数的语音合成技术。本文主要是对隐马尔可夫模型(HMM)在基于参数的语音合成系统中的应用方面进行了研究和探索。本文的主要研究工作如下:首先,基于对现有语音自动切分技术框架的分析,提出了不定长单元模型,改善切分的精度。目前,基于拼接的语音合成系统需要首先对语料库进行语音自动切分,基于隐马尔可夫模型的语音自动切分方法普遍采用的声学模型是三音子模型。本文针对一些语音单元间的协同发音现象和音变现象对切分精度造成的不利影响,提出了基于不定长单元模型的语音自动切分方法。具体定义了不定长语音单元,讨论了不定长单元的选取,并对建立相应的模型,在模型的训练方面也给出了解决的方案。实验结果,长单元的边界切分精度比三音子模型有了很大的提高,精度从原先的79.55%提高到了89.13%,同时总体切分精度也有了一定的提高。结果表明,不定长单元模型对于语音自动切分,特别是对三音子模型表现较差的长单元边界上,能达到比三音子模型更好的效果本文首先介绍基于HMM的自动切分的基本流程,并通过分析由于不同音子间的紧密结合而产生的音变现象,提出一种基于不定长单元模型并给出其训练算法。基于HMM的自动切分技术的分析和改进工作,为后面基于HMM的可训练语音合成的深入研究奠定一定的基础。其次,基于现有的模型训练和参数生成技术,对基于参数的语音合成的技术框架中的一些关键技术进行分析,并根据需要构建了中文的基于参数的语音合成系统。本文建立了一整套的基于参数的语音合成系统,包括模型的训练流程和相应的语音合成模块。它可以根据原始的语音数据进行训练,并自动生成一个的合成系统。同时,本文在此框架基础上进行了中文基于参数的语音合成系统的训练和构建,对基于参数的语音合成技术进行效果验证。此外,本文根据基于最小化生成误差的训练准则,对模型进行了改进,在新的准则下优化合成语音的音质。最后,研究基于参数的语音合成在说话人转换语音合成中的应用。在基于参数的语音合成进行说话人转换应用中,本文采用的是基于隐马尔可夫模型的MLLR自适应方法。这种方法根据一定量的目标说话人的语音数据对说话人无关模型进行参数自适应,得到目标说话人模型,从而快速形成一个目标说话人的语音合成系统。