马来语语音合成系统的实现与改进

来源 :云南大学 | 被引量 : 0次 | 上传用户:fanfanzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音合成、语音识别等技术的快速发展,人机语音交互应用越来越普及。如何使机器发出与真人一致的声音,一直是语音技术研究者追求的目标,基于DNN(深度神经网络)的深度学习已成为提升语音合成系统性能的有效途径。迄今为止,已取得的语音合成研究成果主要集中在英语、汉语等语言,其他语言的相关研究成果还需进一步丰富。马来西亚语(简称马来语)属于属南岛语系马来-波利尼西亚语族,广泛使用于马来西亚、新加坡、文莱等地。本文以开发马来语语音合成应用系统为目的,采用HMM以及DNN,探索提高语音合成系统性能的途径。论文的主要工作有:(1)根据马来语的书写与发音特点,分别以声韵母结构和音素结构实现马来语的音子自动切分,并根据自动切分结果选择了音素结构作为马来语语音合成的建模基元。(2)根据马来语的语言特征设计了五音子上下文属性与问题集,并实现上下文属性集的自动生成。在此基础上,设计并调试了基于HMM与五音子上下文属性的马来语语音合成系统,实现了模型的训练以及语音的合成。(3)针对基于HMM语音合成系统中决策树声学模型的问题,采用全连接的深度神经网络代替决策树作为声学模型,重新进行系统训练与语音合成,相对于HMM语音合成系统,合成语音质量有较明显的提升。(4)在基于DNN声学模型语音合成系统中,针对训练阶段与合成参数生成阶段的参数优化生成标准不一致以及合成语音的基频轨迹过平滑问题,采用了考虑全局方差的轨迹训练,合成语音有效的解决了过平滑问题。实验结果表明,基于DNN声学模型的语音合成方法及其全局方差轨迹训练可以进一步改进基于HMM语音合成系统,有效提高合成语音质量。
其他文献
传统的基于单一模态的信息搜索方式,例如关键字搜索,以图搜图等,已经逐渐无法满足人们的实际需要。如何把网络上的多模态信息进行整合,将语义一致的信息关联起来,从而发掘出
各类生物特征被广泛应用于身份认证与识别领域,方便了人们的生活。嘴唇特征,作为一种新型生物特征,能提供讲话人身份的充分信息,同时具有采集设备简单,采集过程对用户友好等
随着大数据存储规模的日益增长,无论日常在移动设备间进行文件拷贝,还是在数据中心内多节点间进行大量的文件迁移,都会涉及大规模文件的迁移操作。然而,传统的文件迁移方案,无论是设备间还是网络间,本质上是调用底层文件系统基于单文件的读写系统调用,从而实现文件的具体读写。因此,批量处理文件集,实际在底层文件系统对于所有文件进行串行读写操作,由于每个文件都需要存取元数据和数据I/O,从而导致大量分散且随机的I
我国老龄化问题日益严重,但是我国三支柱养老体系存在着严重的翘脚问题,即目前我国养老体系对由政府主导的第一支柱依赖度超过70%,而雇主参与的第二支柱发展不充分,且在减税降费的大背景下难以进一步发展,只有个人养老的第三支柱虽然现在处于起步阶段,但在我国居民财富不断增长地背景下第三支柱进一步发展潜力巨大。第三支柱包括银行、保险、基金等发行的具有养老性质的金融产品,随着居民对基金投资的接受度不断提高,养老
学位
二芳基乙烯化合物最初在信息存储方面的潜在应用引起了人们的研究兴趣。由于其具有极高的记录速度、密度和分辨率等特性作为光电材料被应用到很多研究领域。近年来,具有光开
本文通过从实际演奏的过程中发现问题,并将问题摆出。由于大管复杂的按键结构,致使大管同一个颤音会出现两种甚至两种之上的按键方法,不同的按键方法会从明暗、轻响上做出不一样的体现,正确的指法选择能帮助演奏员有效提高曲目的演奏效果。台湾师范大学音乐系教授徐家驹出版了《低音管指法研究》一书,书中内容以德国大管的构造体系来详列了约250种指法,分别是基本音指法、颤音指法以及特殊圆滑奏之辅助指法三个主要章节。通
心房颤动,又称房颤,是一种最常见的心律失常,与脑卒中、心衰、心肌梗死和脑血栓等疾病的高发病率和高死亡率有关。心电图(Electrocardiogram,ECG)作为一种非侵入式的心脏活动
化工行业作为一个传统的生产型行业正处于一个市场转型期,尤其是其中的龙头企业,它们正不断探索从传统的生产导向系统向市场导向的营销系统进行转化。可是在营销执行尤其是市
恶意流量检测作为一种可以积极主动防御的技术,可以弥补传统安全技术的局限性。支持向量机作为恶意流量检测中一种常用的机器学习算法,其相关参数不易确定但是却对分类结果造
智能电网是未来电力行业的发展趋势,变电站操作更加趋向于智能化、自动化、无人化,给传统的变电站操作模式带来了全新的变化。调控一体化是智能电网发展的未来趋势和重要体现