论文部分内容阅读
语音合成也称为TTS(TexttoSpeech)是近年来语音技术研究的热点之一。随着人机交互智能化的日益发展,语音合成技术也日趋成熟,其合成出的语音的可懂度和清晰度都达到了不错的效果。所以人们产生了对语音合成技术多样化的需求,比如说情感语音合成、个性化语音合成、多语言语音合成等,这些都需要通过对语音韵律模型的研究和调整韵律参数来实现。 本文首先介绍了语音合成和语音信号处理的常用方法及如何进行文本分析的方法。其次,重点研究了韵律结构、韵律模型和时长分析。在对语音韵律建模的时候,要先对其进行韵律标注,常用的有ToBI(ToneofBreakIndex)和SSML(SpeechSynthesisMarkupLanguage)标注。着重研究基于规则的韵律模型,对常用的韵律参数规则进行了总结。然后,对时长分析方法做了进一步的改进。 最后,实现了语音合成系统,并把语音合成应用到语音验证码中。 在此基础之上,本文的主要研究内容和工作如下: (1)对语音韵律结构进行分析和标注,为下一步的韵律模型和合成打下基础。研究语音合成中的韵律模型,详细阐述常用韵律参数的规则以及建模方法。重点对时长进行分析,研究变速不变调的关键技术,并对时长分析做了改进。介绍了提取共振峰参数的方法,然后构造合成所需的语音库,详细阐述了合成步骤并最终实现了基于共振峰合成的合成系统。 (2)提出了一种基于共振峰合成和韵律调整的语音验证码方法Sound-basedCAPTCHA(CompletelyAutomatedPublicTuringtesttotellComputersandHumanApart)。验证码是用来区分用户是人类还是机器程序的一种安全机制。常用的验证码都是基于图片的,这些不适合残障人士使用。近年来也有很多语音验证码方面的研究,但是还存在一些不足,很多方法都未考虑如何更好的抵御自动语音识别技术ASR(AutomaticSpeechRecognition)的攻击。 (3)所提出的方法提高了语音验证码的健壮性,弥补了现有语音验证码的不足。这种方法选择最小的语音单位音素作为合成基元,在合成过程中基于规则调整韵律参数,特别是设置语音参数为随机值,使得合成出的语音的速度和韵律具有不确定性和不可预测性,从而有效降低了自动语音识别技术ASR对语音验证码的识别率,增强了语音验证码的鲁棒性。 (4)对合成出的语音验证码分别进行人耳识别和ASR识别测试,并通过MOS(MeanOpinionScore)主观评价和MFCC(Mel-FrequenceCeptralCoefficients)参数距离客观评价来评测合成出的语音。