论文部分内容阅读
随着科技的发展,语音技术越来越受到人们的关注.语音合成作为言语工程的一个重要组成部分,已经成为当前研究的热点.语音合成系统将输入的文本信息以语音的形式输出出来,使信息的传递更加方便、快捷.该文对粤语语音合成系统中若干关键技术进行了研究.文中首先介绍了语音合成的研究背景,简单回顾了语音合成和文语转换系统的发展历史.接着对几种常见的语音合成方法进行了分析,重点介绍了粤语语音学知识以及粤语语音合成研究的现状,指出了现阶段粤语语音合成的研究意义.韵律预测是语音合成系统中重要的组成部分,它直接关系到最终合成语音的自然度.该文总结了前人研究的一些成果,针对粤语语言特点,采用数据挖掘以及统计分析的方法建立了粤语韵律模型.在基频预测方面,使用从文本分析出的高层韵律描述信息,应用CART技术建立了粤语的基频预测模型.为提高基频预测精度,尝试了几种不同的改进方法.在时长预测方面,通过对音库中音节时长分布的统计,揭示了粤语时长的变化规律.在对各种时长模型预测效果进行比较后,选择Sop模型作为粤语合成系统使用的时长预测模型.语音合成系统中,单元挑选的目标是尽量减少由于单元拼接而造成的合成语音音质的损失.传统的基于代价函数的单元选择方法,需要很多专家知识作为指导,单元选取具有很强的主观性.该文尝试了一种基于语音客观参数评估的目标代价规则训练方法,使用数据驱动技术代替专家知识来生成代价规则取得了较好的效果.同时,使用一种插值平滑的多元基频连接概率模型,提高了连接代价计算的可靠性.为了提高语音合成的自然度和表现力,该文对粤语焦点的合成方法也进行了研究.通过采用一种新的实验语料设计方法,在焦点位置已知的情况下,分析了粤语焦点在韵律特征上的表现,并建立了焦点的韵律特征模型.在语音合成过程中,使用韵律调整算法调整合成语音,可以合成自然度较高得语音焦点.