论文部分内容阅读
国际交流日益紧密,单语种语音环境已经不能满足需求,在一台智能设备上集成多种语言的语音环境成为趋势。嵌入式设备存储容量有限,多语种语音数据占用存储空间十分庞大。同语种内部、不同语种间语音基元数据存在广泛关联特性,单文种编码方法无法消除这类数据冗余,探讨异类文种语音数据结构特点,优化多语种语音数据存储形式具有重要现实意义。多语种处理技术是研究热点,如多语种机器翻译,多语种语音识别与合成,说话人语种自适应等。多语种处理中,音素常作为不同语种间建立联系的基元。语言学中音素数目有限,音素之间区分明确,且语言的韵律规则、拼读规则、音素组合规则等研究成果都可以作为语音处理中的先验知识。本文面向多文种文字书写智能辅导系统进行异类文种语音融合研究,该类系统主要用于对初学者如学龄儿童进行在线或脱机辅导,包括对他们的书写规范引导、文字书写评价和综合指导等,文字读音、书写评价反馈、综合指导提示语等语音信息不可或缺。由于涉及指导意见语音、被练习文字读音等众多语音数据,导致系统的存储空间与语音数据存储量之间成为必须面对与重点解决的问题之一。为此,依据异类文种之间、同类文种不同语音之间存在音素数据关联的特性提出多文种语音数据融合编码方法:将不同文种存在的相同音素数据段块按段块模板截取语音样本序列,小波变换,提取特征矢量,生成共享模板集;任意字音或语句音串均按共享模板集提供的元素进行编码与解码;以模板音素串构成的语音记录库按(音节,音素)索引。单字语音数据压缩比、语音数据存储量、语音还原分段信噪比、主观评价得分等实验结果参数明显优于现有方法,语音还原质量良好。本文的创新点为:一.通过对语言学大量资料的研究,从学科交叉的角度,将语言学研究成果引入语音编码领域,试图从一个新的方向探索语音的压缩编码,提出了基于音素数据关联的多语种语音融合编码机制。二.建立了音节、音素二级检索结构,优化了语音库记录数据存储,大幅降低了语音库数据存储量。三.设计了一种客观有效的音节、音素自动切分机制,语音数据预处理后,实现了大规模语音音节、音素的自动切分。实验表明,本文方案优化了语音库的记录存储结构,有效压缩了语音库的数据存储量,语音重构效果理想。