论文部分内容阅读
语音合成(TTS,Text To Speech)技术是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。随着计算机技术和通讯技术的巨大发展,TTS技术已经应用到语音对话系统、语音呼叫中心、语音触发的网站和电子邮件服务等很多领域并且已经发挥出其巨大的威力,但是,当前现有的TTS系统在自然度和可懂度方面都离人们的要求相差甚远,真正能够代替人来阅读的TTS系统还没有出现,从而也制约着TTS系统在更大的范围内的使用。 在语音合成方面,首先遇到的困难是从文本信息到韵律的标识上,自然语言中,语音特征变化万千,其数据本身隐含了知识。而对这些知识,人类可以感知,但对其的认识、描述是远远不够的。在从文字到韵律符号描述的自动转换方面,对自然语音理解能力的不足一直是研究工作的瓶颈所在。目前文字到韵律描述的转换通常只能根据一些基本的语法信息(如词性)来划分语调短语或设置语句的普通重音,还没有根据句子的语义来做深层次处理(如设置不同的表达或感情色彩)的能力。其次,从声学的层面上,人们对韵律特征对应的声学参数还没有完全认识,缺乏完备的描述,只能凭经验。这也进一步阻碍了将文本标注的韵律信息表现出来,生成自然的带有韵律感和重音感的合成语音。 本文借助我们实验室以往对自然语言理解处理的成果——二元语义关系分析。建立了一套符合XML扩展标记语言标准的文本语音合成描述符号体系,同时建立了从语义描述标注到语音合成韵律标注的转换规则,将对语义的描述自动转换到语音韵律信息的描述。而且,还考虑到了文本中的多音字、数字、符号、字母的发音问题,建立了一系列针对这些情况的发音描述方式。 在韵律语音的合成上,本文搜集了1248个汉语中的单字和8000多个使用频率较高的双字词、三字词、四字词以及常用人名、地名等语料信息,对其进行整理编号后,在转门为本系统开发的语音库维护程序上对这些语料进行了人工录音,对这些语音资料切分和基音周期分析后,存入语音数据库和检索索引数据库,构建了本系统所需要的基础语音数据。 语音合成模块包含语速修改单元、语气修改单元、重音修改单元以及静音生成单元等,并且把它们做成模块的形式,提供接口供语音合成模块调用以改变语