端到端印尼语语音合成系统的设计与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户:luowzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习先进技术层出不穷促进着语音合成技术快速发展,机器发出的声音越来越接近真人的声音。然而,相比于汉语、英语等通用语言,印尼语语音合成技术还不够成熟,使用更有效的技术不断提高合成印尼语语音的质量仍是本领域的研究热点。本文围绕开发端到端印尼语语音合成系统,进行了如下研究:首先,本文设计并实现端到端印尼语基线语音合成系统,完成印尼语语料校对处理工作,满足端到端系统的输入要求。同时对端到端语音合成系统的注意力机制添加约束项,加快系统的收敛速度,提高系统稳定性。最后,利用梅尔倒谱失真、音高错误率和基频帧错误率三个指标对端到端印尼语基线语音合成系统进行了性能评测。然后,针对低资源语言电子资源缺乏的问题,本文基于BERT(Bidirectional Encoder Representation from Transformers)预训练语言模型,实现了印尼语语音合成系统,进而探索低资源语言端到端语音合成系统的改进方法。同时分别采用上下文信息拼接和词向量拼接两种方法将BERT预训练词向量信息嵌入印尼语语音合成系统,还对比了使用不同类型的编码器对该语音合成系统性能的影响。其次,为了提高合成印尼语语音的自然度,本文将全局风格令牌(Global Style Token,GST)引入语音合成系统,利用GST模型建模音频韵律特征的能力,将音频的韵律特征提取出来作为语音合成系统的附加输入,改善系统合成质量。同时为满足实际应用需求,还提出了两种利用输入的文本信息来预测韵律特征的方法,使合成系统在实际应用中,只依靠输入的文本信息也能够合成出较高自然度的印尼语语音。最后,本文选取梅尔倒谱失真、音高错误率和基频帧错误率三个指标用于客观评测合成语音的质量,并辅以主观平均意见得分、注意力对齐图以及合成语音的梅尔频谱图,全面详细的评价系统性能。实验结果表明,文中提出的基于BERT预训练语言模型的印尼语语音合成和基于GST的印尼语语音合成在各方面均优于端到端印尼语基线语音合成系统。
其他文献
社会资本参与生态保护修复有三个方面的动因,即利益驱动、政府推动和社会公益行为。当前,社会资本参与生态保护修复尚处于起步和发展阶段,在实践层面还存在许多不足,如限制性因素较多、法治保障不足、政府配套措施不完善等。针对存在的不足,提出了完善法治与政策体系、风险分担机制、投资回报机制、监管机制和退出机制的建议。
根据新版国际糖尿病联合会(IDF)地图数据显示,过去的10年间(2011年~2021年),我国糖尿病患者人数由9000万增加至1亿4000万,增幅达56%。糖尿病并发症多,后果严重,需要人们引起重视,早做预防。
综述了硬质聚氨酯泡沫塑料在冷藏集装箱和冷藏保温车等冷链物流业中的应用,介绍了国家标准GB/T 40363—2021《冷藏集装箱和冷藏保温车用硬质聚氨酯泡沫塑料》的立项背景、制定原则、制定过程和该标准的技术内容。
学位
肺结核疾病是世界上死亡率极高的肺部疾病,随着社会的发展、空气质量的降低和生活环境的改变,肺结核疾病的患病规模逐渐增大,成为人类生命健康的重要威胁,对于肺结核疾病的预防、监测、诊断和治疗成为一个世界性的话题。随着病情的发展,疾病对肺部的损伤日趋严重,会造成肺部的侵蚀和破损,CT影像成为临床中关键性的诊断治疗依据。从CT图像中分割肺部可以检测肺部受损伤的程度,对辅助医生更精确快速地进行疾病检测有重要意
随着计算密集型应用的出现和移动设备数目的高速增长,集中式部署的云计算模式已经无法满足移动互联网和物联网数据处理的时延和可靠性要求。为了缓解云计算模式的高时延和网络拥塞问题,将云计算能力迁移至移动网络边缘的移动边缘计算(Mobile Edge Computing,MEC)模型被提出。MEC技术的核心是在移动设备与云计算中心之间部署MEC服务器,由MEC服务器为计算卸载任务提供边缘计算服务,达到减小响
[目的]探讨在鼻综合整形术中自体肋软骨颗粒鼻翼基底填充术对低鼻伴鼻翼基底凹陷患者的治疗效果,分析并评价该治疗方式的有效性及安全性。[方法]本研究对中国医学科学院整形外科医院鼻整形与鼻再造中心于2017年6月至2021年6月诊断为“低鼻伴鼻翼基底凹陷”的病例进行回顾性研究,根据术前沟通后患者自主意愿是否接受鼻翼基底填充术进行分组,分为对照组(仅接受自体肋软骨隆鼻术)及观察组(联合自体肋软骨颗粒鼻翼基
东巴画源自于我国西南地区古代纳西族东巴教的祭祀活动,它既见证了东巴教的历史,也记录着纳西族与其他各民族融合的历史,是研究东巴文化的基础,但是东巴画因绘制技艺、绘画材质、数字化等多种原因,出现了噪声、杂乱纹理、颜色不均匀等问题。图像去噪技术是基于原始图像中存在的噪声,对原始图像进行估计,恢复图像原有的色彩、结构和纹理。因为东巴画颜色种类丰富,不同粗细的线条纵横交错,现有图像去噪算法直接在东巴画上进行
内部控制贯穿在企业经营管理的各个环节中,是促使企业实现稳健经营、防范经营风险的必要条件。文章首先探索当前企业在内部控制中存在的问题,其次,研究了企业内部控制管理存在问题的成因,再次,分析了完善企业内部控制管理的建议与对策。