基于迁移学习的低资源多语言的语音识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:NobelHsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动语音识别技术发展至今日,无论是在传统混合语音识别架构还是新兴的端到端识别架构上,在声学语料充足、资源丰富的语言上,均已取得了不错的识别效果。而对于一些语料较为匮乏的低资源语言,缺乏转录语音训练数据这一核心问题,使得这些语种在搭建语音识别系统任务中仍然受到很大限制,其语音识别研究仍停留在较为初级的层面。本文的研究目的是利用迁移学习的思路,选择在端到端架构上,采用多语言语音识别技术提升低资源语言的语音识别性能。本文主要以实验室录制的藏语拉萨方言作为低资源目标语言,对其进行了以下研究:1.基于端到端架构的优势,提出了端到端的拉萨方言单语语音识别模型。在此基础上,将拉萨方言这种语言的独特性应用到该语音识别的任务中。首先,提出了这种低资源语言适应端到端架构的预训练策略,该策略能针对低资源语种训练不充分的问题进行明显改善;其次,本文挖掘藏语自身的独特性,首次将藏文部件(radical)作为高度压缩的声学建模单元进行建模,并和藏文字建模单元进行对比,以期提高语音识别系统的性能。实验显示,针对拉萨方言数据库,使用这种基于自注意力机制的端到端模型Transformer,在使用低资源语言适应端到端架构的预训练策略后,采用两种与发音词典无关的建模单元进行建模和解码,能够取得较为理想的结果。该方法能够在脱离发音词典、语言模型的情况下,快速建立低资源语音识别系统。在性能方面,单语的最佳结果比传统混合语音识别架构上深度神经网络模型的基线系统结果有相对6.3%的提升。2.基于迁移学习的思路,提出了端到端的拉萨方言多语言语音识别模型。首先,该模型将参与训练的全部语种的建模单元混合,其全部建模单元均采用与各语种发音词典无关的建模单元,因此完全摆脱了对发音词典的依赖,也不需要根据语种构建通用音子集,这对缺乏资源的低资源语种至关重要;其次,该模型将语种识别和语音识别双任务统一在单一模型中,无需预先进行语种切分,通过训练能够自动判别语种,直接支持多语言语音识别任务;最后,该模型采用端到端架构,不再需要传统混合模型架构中的高斯混合模型对齐及决策树聚类等流程,极大简化了多语言语音识别任务的流程。实验首先参考类似多语言语音识别的思想,进行拉萨方言的自我融合训练,即对藏语的两个建模粒度的识别系统进行系统融合,证明了两种建模粒度共同训练的模型性能要优于单一建模单元的训练模型。在此基础上,采用了与目标语言类似的共四种语言与目标语言的两种建模单元数据联合训练,搭建拉萨方言的多语言语音识别系统。其最佳结果比基线系统的结果有相对14.2%的提升。
其他文献
莱斯噪声的去除是磁共振成像(Magnetic Resonance Imaging,MRI)中一个重要的问题。近年来,一些基于学习的方法在图像恢复方面取得了一定的成果,这些方法不仅速度快,而且去噪效果很好。然而,这类方法有一定的局限性,这些模型的训练是过程是依赖于噪声水平的,即,训练的模型会受到特定噪声水平的限制,缺乏适应不同水平噪声的能力,在处理不同水平的噪声时,需要训练不同的模型。本论文主要研究
随着计算机硬件的不断发展,多核处理器的出现频率越来越高,使用并发程序的场景越来越多。并发程序相比于传统的顺序程序有很多优势,它有更高的运行效率和更充分的资源利用率,但是它也存在一些不足。由于并发程序中线程调度的复杂性和程序运行时的不确定性等问题容易产生并发缺陷,这些并发缺陷如果不能及时地被修复,必将会造成严重的后果。并发缺陷与传统缺陷不同,有时只会出现在某些特殊的调度中且需要使用合适的补丁来修复,
随着云计算的发展和大数据时代的到来,数据中心承载的集群应用层出不穷,数据中心网络传输已经代替存储和计算成为应用性能的瓶颈。在网络传输层,Coflow(具有共同目标的flows集合)更能表示集群服务器之间数据传输产生的语义抽象。目前,针对Coflow的研究主要集中在:1)如何提高Coflow的效率(减小Coflow的完成时间);2)如何保障Coflow性能隔离(即公平性)。在Coflow信息已知的情
随着车载电子技术的飞速发展,驾驶安全性问题成为人们日益关注的一个话题。汽车行进过程中驾驶员视线的偏移是交通事故频发的主要原因之一。HUD平视显示技术是一项近年来逐渐应用于车载领域的安全驾驶辅助技术,主要通过减少驾驶员低头查看信息的次数,使视线集中在正前方来提高驾驶安全性。车载HUD平视显示系统通过图像翘曲形变以及插值运算将原始平面图像信息显示在汽车的前挡风玻璃曲面上。为实现图像翘曲形变,建立了一种
在大数据驱动的数据中心网络中,负载倾斜和网络拥塞严重影响着网络效率。大量的研究工作为此展开。但现有的研究工作仍然存在着问题:在负载倾斜方面,由于网络存在非对称性和网络资源的侵略性使用,使得无论是基于数据包(packet)还是基于数据流(flow)的负载均衡技术都难以改善网络负载倾斜问题;在拥塞控制方面,传统的基于packet的拥塞控制技术面临无法简单有效避免拥塞和数据包重排序的严重问题,不利于解决
环形可展天线服役于空间环境,空间高低交变的温度场使得天线的热变形时刻发生着变化,其形面精度和张力分布也随之改变,进而影响天线信号传递的稳定性。本文以环形可展天线为研究对象,基于力密度和非线性有限元的找形方法,研究了考虑热变形的找形方法。首先,介绍了空间热环境特性,详细阐述了空间低温、空间真空、空间微重力和空间热源的特点及其对天线产生的影响;进而对空间热源参数做出基本假设,定义了天线轨道及其运行姿态
人工智能技术的发展促使语音交互从由系统占主导地位的第一阶段进入双向互动的第二阶段,人与机器的互动更加简单、高效、自然和多样。一方面,相较于图形界面交互,目前对语音交互的研究较少,缺乏具有普适性的用户体验模型;另一方面,老龄化问题愈发严峻,老年人生理、认知、心理特征使其有希望成为语音交互的潜在用户。本文具体研究内容及成果如下:1.搭建具有普适性的语音交互下的用户体验要素模型。用户体验要素模型是由Je
光遗传学技术是一种具有精准靶向、快速响应等优势的新兴生物神经调控手段。传统光遗传实验系统主要采用的植入光纤或器件的方式会对动物行为学分析造成一定的影响。因此,利用视觉技术进行定位和跟踪的无线光遗传实验系统的研究具有重要实践价值。本论文针对目前光遗传学实验系统存在的缺陷,提出并设计了一种基于视觉跟踪的无负重、无植入、满足大范围辐照的系统方案。根据对主流视觉跟踪算法的分析,将内建状态转移模型的粒子滤波
大数据发展的今天,部署在数据中心的应用类型和体量剧增,对数据中心网络资源管理提出富有挑战性的考验。在资源管理中,数据中心网络不仅需要满足应用的需求,同时也需要考虑网络资源成本。Coflow调度是数据中心网络资源管理的有效技术手段。然而,现有的研究工作要么是以减小Coflow的完成时(CCT)为目标,要么是保障Coflow在截止时间(Deadline)之前完成。这两个目标虽然都能够提高应用的性能需求
曲面屏是指一类用于非平面显示设备上的曲面盖板薄透件,凭借屏幕眩光弱、显示效果出色等优点被人们所钟爱,广泛应用于智能手机、智能穿戴、车辆工程以及航空航天等领域。但目前曲面屏的加工工艺精度控制不稳定,生产中产品几何尺寸加工精度低、屏幕平面度差以及屏幕厚度不均匀等问题时有发生,严重影响了显示设备的正常使用。对大面积曲面屏的测量需求,急需一种快速高效、低成本、可进行屏幕多层同步测量的曲面屏测量方案。针对以