音素关联的多文种语音融合

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:chengyihan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国际交流日益紧密,单语种语音环境已经不能满足需求,在一台智能设备上集成多种语言的语音环境成为趋势。嵌入式设备存储容量有限,多语种语音数据占用存储空间十分庞大。同语种内部、不同语种间语音基元数据存在广泛关联特性,单文种编码方法无法消除这类数据冗余,探讨异类文种语音数据结构特点,优化多语种语音数据存储形式具有重要现实意义。多语种处理技术是研究热点,如多语种机器翻译,多语种语音识别与合成,说话人语种自适应等。多语种处理中,音素常作为不同语种间建立联系的基元。语言学中音素数目有限,音素之间区分明确,且语言的韵律规则、拼读规则、音素组合规则等研究成果都可以作为语音处理中的先验知识。本文面向多文种文字书写智能辅导系统进行异类文种语音融合研究,该类系统主要用于对初学者如学龄儿童进行在线或脱机辅导,包括对他们的书写规范引导、文字书写评价和综合指导等,文字读音、书写评价反馈、综合指导提示语等语音信息不可或缺。由于涉及指导意见语音、被练习文字读音等众多语音数据,导致系统的存储空间与语音数据存储量之间成为必须面对与重点解决的问题之一。为此,依据异类文种之间、同类文种不同语音之间存在音素数据关联的特性提出多文种语音数据融合编码方法:将不同文种存在的相同音素数据段块按段块模板截取语音样本序列,小波变换,提取特征矢量,生成共享模板集;任意字音或语句音串均按共享模板集提供的元素进行编码与解码;以模板音素串构成的语音记录库按(音节,音素)索引。单字语音数据压缩比、语音数据存储量、语音还原分段信噪比、主观评价得分等实验结果参数明显优于现有方法,语音还原质量良好。本文的创新点为:一.通过对语言学大量资料的研究,从学科交叉的角度,将语言学研究成果引入语音编码领域,试图从一个新的方向探索语音的压缩编码,提出了基于音素数据关联的多语种语音融合编码机制。二.建立了音节、音素二级检索结构,优化了语音库记录数据存储,大幅降低了语音库数据存储量。三.设计了一种客观有效的音节、音素自动切分机制,语音数据预处理后,实现了大规模语音音节、音素的自动切分。实验表明,本文方案优化了语音库的记录存储结构,有效压缩了语音库的数据存储量,语音重构效果理想。
其他文献
电子商务的广义概念是指通过电子方式的所有活动或者各种企业往来,其中最重要的电子方式就是互联网。如今电子商务的销售总额相当于前几年的电子商务销售额的总和,尤其在购物
在当今网络高度普及的信息化时代下,越来越多的高校都建立了自己的门户网站,以便对外宣传、服务及展示自我。高校的门户网站处于互联网这个开放的环境中,在给师生们提供便利的信
在人类认识世界的过程中,人们会不断地接受新的知识,随即人们的认知状态也会发生改变,有时人们遇到的某些新知识会与原来的知识发生矛盾,这时就要对已有的知识库进行更新。如
传统的学习算法都是批量学习算法,即假设一次性获得所有样本,或者获得有代表性的样本,然后用其对分类器进行训练。但在实际的生活中,要一次性获得所有样本,或者获得有代表性的样本
学位
进化算法(EAs,EvolutionaryAlgorithms)由于其具有隐并行性及强鲁棒性等特性,被广泛应用于解决单/多目标优化问题。但在进化过程中,进化算法需要对候选解进行大量的目标函数值评
带宽是互联网通信中的关键因素与重要资源,在互联网规模和网络使用者的日益增多、业务种类逐渐多样化的今天,为了能够获得更好的网络运行环境,网络运营商需要提供更加可靠的
如今已步入云计算时代,云环境下的数据访问离不开数据库的支持,一个性能优良的数据库系统可以极大地提升云平台数据访问速度。目前很多云平台使用的数据库都是集群形式,这主要有以下原因。首先,数据库集群往往都实现负了载均衡的功能。其次,因为集群中包含了不止一个数据节点,大大提高了数据的安全性。此外,当集群中某个节点无法继续执行任务时,可以将该任务分给其他的节点去执行,实现失败转移。可以看出,数据库集群具备了
学位
随着语义网技术的不断发展与成熟,资源描述框架RDF (Resource Description Framework)被应用于越来越多的领域中,然而随着全球全面进入信息化,数据爆炸式的增长,大规模RDF数
随着计算机技术、控制技术和网络技术的蓬勃发展,嵌入式系统与网络控制系统的应用越来越广阔。当前控制系统正经历一场前所未有的变革,远程监控和智能控制成为控制系统发展的重