论文部分内容阅读
基于大语料库的语音合成方法,由于能够产生高自然度的合成语音,成为目前应用较多的语音合成方法。高质量的大语料库合成系统对存储资源和运算能力要求比较高,从而限制了它的应用范围,主要用在服务器级和桌面级。随着嵌入式技术的不断发展,嵌入式语音技术的应用已成为必然的趋势。但是,嵌入式系统存储容量和处理能力均有限,从而限制了语音合成技术在嵌入式系统中的应用。所以,如何解决大语料库语音合成系统的合成效果和资源消耗之间的矛盾,使语音合成技术在嵌入式领域中应用就成为一个亟待解决的问题。本文针对嵌入式设备存储容量小、计算能力有限的特点,对基于变形决策树(CART)模型和改进K-中心聚类算法的语音库构建和合成基元搜索方法进行了研究。该方法可以有效的选出原始语音库中最具代表性的基元样本,从而合理有效的降低语音库的规模和算法复杂度,满足嵌入式设备的要求。首先,以带有声调的音节为基元,采用基于变形CART模型的预分类方法对大容量合成语音库进行预分类,并对语音库中音节种类、总数等相关数据做统计分析;然后,分别以带有声调的音节、声韵母为基元,以基频、时长和Mel频率倒谱系数等为特征,采用改进K-中心聚类算法进行不同比例的聚类裁剪,得到尽量覆盖原始语音库中韵律情况且满足嵌入式系统资源要求的语音库;最后,利用裁剪后的语音库以及改进的合成基元搜索算法,搭建出语音合成系统。通过主观听辨实验和客观数据计算,对语音库裁剪和合成基元搜索算法进行验证。实验结果表明,裁剪后系统的合成语音具有较好的清晰度、自然度。