基于二元语义标注的波形拼接语音合成

来源 :山东大学 | 被引量 : 0次 | 上传用户:wenge228394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(TTS,Text To Speech)技术是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。随着计算机技术和通讯技术的巨大发展,TTS技术已经应用到语音对话系统、语音呼叫中心、语音触发的网站和电子邮件服务等很多领域并且已经发挥出其巨大的威力,但是,当前现有的TTS系统在自然度和可懂度方面都离人们的要求相差甚远,真正能够代替人来阅读的TTS系统还没有出现,从而也制约着TTS系统在更大的范围内的使用。 在语音合成方面,首先遇到的困难是从文本信息到韵律的标识上,自然语言中,语音特征变化万千,其数据本身隐含了知识。而对这些知识,人类可以感知,但对其的认识、描述是远远不够的。在从文字到韵律符号描述的自动转换方面,对自然语音理解能力的不足一直是研究工作的瓶颈所在。目前文字到韵律描述的转换通常只能根据一些基本的语法信息(如词性)来划分语调短语或设置语句的普通重音,还没有根据句子的语义来做深层次处理(如设置不同的表达或感情色彩)的能力。其次,从声学的层面上,人们对韵律特征对应的声学参数还没有完全认识,缺乏完备的描述,只能凭经验。这也进一步阻碍了将文本标注的韵律信息表现出来,生成自然的带有韵律感和重音感的合成语音。 本文借助我们实验室以往对自然语言理解处理的成果——二元语义关系分析。建立了一套符合XML扩展标记语言标准的文本语音合成描述符号体系,同时建立了从语义描述标注到语音合成韵律标注的转换规则,将对语义的描述自动转换到语音韵律信息的描述。而且,还考虑到了文本中的多音字、数字、符号、字母的发音问题,建立了一系列针对这些情况的发音描述方式。 在韵律语音的合成上,本文搜集了1248个汉语中的单字和8000多个使用频率较高的双字词、三字词、四字词以及常用人名、地名等语料信息,对其进行整理编号后,在转门为本系统开发的语音库维护程序上对这些语料进行了人工录音,对这些语音资料切分和基音周期分析后,存入语音数据库和检索索引数据库,构建了本系统所需要的基础语音数据。 语音合成模块包含语速修改单元、语气修改单元、重音修改单元以及静音生成单元等,并且把它们做成模块的形式,提供接口供语音合成模块调用以改变语
其他文献
  本文的目标是设计一种高效的带层次的数据立方体生成算法。  论文提出了维关联多维数据模型(RdCube),模型中分析了立方体维度间的相互关联性;通过改进StarCube的非划分维
随着Internet技术的迅猛发展,电子邮件正成为一种快捷,经济的现代通信技术手段,但电子邮件在为人们提供极其方便的通信手段的同时也为垃圾邮件、病毒、恶意程序或敏感内容邮
近年来,P2P网络成为计算机网络技术研究中的一个热点,其是建立在网络应用层上的逻辑覆盖网。与传统的客户机/服务器(C/S)模式相比,P2P网络的容错性强、成本低、可扩展性好、资
随着计算机网络安全问题的不断增加,网络安全成为人们关注的焦点。目前,解决网络安全问题的主要技术手段有加密技术、防火墙技术、安全路由器等,虽然完成大部分安全功能,但它
随着互联网技术的不断发展,网络入侵技术也不断进步。其中,针对网络入侵检测系统NIDS(NetWork Intrusion Detect System)的变体攻击技术具有很强的隐蔽性和可利用性,造成越来
随着信息技术的不断发展,在制造软件系统的领域中发生了三个变化:组件化、全球化和系统整体优化。由此带来的技术关键就是发现并且反复使用由不同的供应商提供的成熟的制造软
学位
本文旨在探索高校数字图书馆统一资源检索模型,从而实现一种高效、实用的基于元数据的高校数字图书馆资源检索系统。 本文主要做了以下几方面工作:深入学习了数字图书馆
随着互联网技术的日益成熟,企业也在为用户提供越来越多的网络应用。由于HTTP请求的指数性增长,Internet上的许多热门站点都经常面临着服务器的超载问题。如何在服务器超载的
组合化学是近十几年逐渐发展并成熟起来的一门学科,它将化学合成、组合理论、计算机辅助设计融于一体,在短时间内将不同构建模块经过连接形成化合物库,再对库成分进行筛选优