【摘 要】
:
构音障碍是指发音障碍人群由于对构音器官的控制失常,造成发音含糊、缓慢的情况。近年来,自动语音识别(Automatic Speech Recognition,ASR)技术取得了长足的进步,引起了各个领域的关注。尽管ASR在各种场景中取得了成功,但为音障患者建立音障语音识别(Dysarthric Speech Recognition,DSR)系统仍然是一项艰巨的任务,其困难表现在:音障患者与正常人的发
论文部分内容阅读
构音障碍是指发音障碍人群由于对构音器官的控制失常,造成发音含糊、缓慢的情况。近年来,自动语音识别(Automatic Speech Recognition,ASR)技术取得了长足的进步,引起了各个领域的关注。尽管ASR在各种场景中取得了成功,但为音障患者建立音障语音识别(Dysarthric Speech Recognition,DSR)系统仍然是一项艰巨的任务,其困难表现在:音障患者与正常人的发音存在较大差异;音障患者之间的说话风格差异较大;音障数据集稀少,无法通过大规模训练直接得到鲁棒的深度模型。针对这些难点,本文主要研究如何对现有的ASR技术进行借鉴和改进,根据音障语音数据的特性设计出一个更为鲁棒的DSR系统。首先,我们探索了两种深度语音识别网络作为基本模型:分别是基于深度变分概率图模型和基于端到端模型的ASR。深度变分概率图模型是在概率图模型上引入变分自编码作为生成网络,兼具可解释性和灵活性。我们以隐马尔可夫模型(Hidden Markov Models,HMM)作为变分分布的结构化先验,用以建模隐变量的时序转移关系。以Transformer模型为例的端到端神经网络消除了传统HMM中帧和帧相互条件独立的假设,通过注意力机制表示时序数据之间的依赖关系。实验结果表明,Transformer模型的识别性能更好,又由于其可扩展性更强,我们将其作为基准模型进行后续的深度模型设计。其次,我们提出了基于多视图学习的深度音障语音识别系统。由于音障数据的特殊性,我们将多个设备采集到的信息视为数据的不同视图,根据视图间的一致性和互补性的约束,运用多视图学习方法进行建模。我们将基于交叉注意力机制的编码器接入到Transformer编码器的下游,学习到紧凑的隐层表示,以消除视图之间的差异性。实验结果表明,多视图数据和交叉注意力机制在学习隐层特征时起到了重要的作用。最后,我们提出了在对比学习框架下的多视图深度音障语音识别系统。由于音障数据稀少,我们使用多种变换方式组合对输入的语音特征进行了数据增强。为了更好地利用不同视图下数据的信息,我们引入了对比学习,在隐空间上,将拉近正例、远离负类作为目标训练出一个共享参数的深度网络,产生紧凑的隐表示。实验结果表明,通过对比学习可以训练出一个更鲁棒的识别网络,解决了数据稀缺的问题,使得DSR对音障语音的识别错误率大幅度下降。综上所述,本文提出的基于多视图学习的深度音障语音识别系统与基于对比学习的深度音障语音识别系统能够实现对多试图数据的有效利用,解决音障数据的稀缺问题,最终完成对模糊不清的音障语音数据进行有效的识别。本文综合利用多视图学习方法、数据增强方法和对比学习框架等技术提升了 DSR的识别性能,具有重要的现实意义。
其他文献
电化学方法在易微型化、可原位、实时检测等方面具备优点,在分析化学领域中被广泛应用,是目前生物体活性物质分析检测常用的方法。但在生物体内实际检测时,一些待检测的活性物含量较低,且生物体内环境复杂,存在其他干扰活性物质。因此建立高选择性、高稳定性、高准确度以及灵敏度的活性物质分析的电化学方法仍具有巨大挑战。本论文就活体电化学分析研究中存在的问题,基于电化学基本原理和电化学传感技术,构建了生物体内重要生
蜂粮又称蜂面包,天然蜂粮中富含大量营养物质和生物活性成分,与花粉相比,蜂粮更易吸收,蜂粮作为保健食品逐渐被人们接受。但是,人工管理难度大和蜜粉原生态环境严重破坏等原因,经常导致蜂粮不能满足市场的需求。花粉中的过敏蛋白和抗营养因子对花粉的应用范围有很大影响。菌体发酵过程中发生的蛋白水解,可破坏变应原的蛋白表位或改变其表达,从而提高花粉蛋白的免疫活性。本研究从天然油菜花蜂粮中分离优良菌株,进而建立并优
星型聚电解质刷相比于线性聚电解质刷子具有其独特的拓扑结构和更多的末端单体,并且随着刷子接枝密度和自身臂数的增加,星型刷会出现线性刷所不具有的独特的分层现象从而利用了大量靠近接枝基底附近的空隙,因此可以携带更多的酸性或碱性功能性官能团,从而更有利于调控接枝表面的亲水性,吸附性,可用于制作仿生润滑剂改善界面润滑性。在本文中,笔者利用朗之万分子动力学模拟(Langevin Molecular Dynam
纯电动汽车因其零排放、噪音小、具有较大节能环保潜力的优点受到了广泛关注。世界各国政府与各大车企均已将纯电动汽车产业化作为重要发展目标。在此背景下,势必对纯电动汽车的动力性和经济性等也相应地提出更高的要求。同时随着物流行业的发展,纯电动物流车已逐渐被应用于替代传统物流车,以此降低运输成本。基于此,本文以重庆某汽车公司“电动汽车高能效传动系统研究”项目为依托,提出一种用于纯电动物流车的三挡变速系统,并
航空发动机的制造往往集成了制造加工业最高水平,其制造过程更像是工业制造艺术的呈现。随着科学技术发展,仿生表面的加工与减阻机理研究逐渐进入研究人员的视野。研究表明仿生表面在流体减阻方面具有良好表现,将仿生减阻表面应用于航空发动机叶片制造加工,对提高航空发动机气流动力性有十分重大的意义。目前,仿生表面加工主要依靠激光加工和电化学加工方法。虽然仿生结构成型效果较为理想,但加工效率低,加工成本高。砂带磨削
作为钢铁物流的重要环节,原材料运输负责将废钢、煤炭等原材料运输给钢铁生产企业使用。由于生产效率、库房容量等原因,原料运输车辆需要在到达钢厂附近时预约排队,并在停车场区域等待通知进厂卸货。目前钢铁物流领域处于信息化转型初期,相关数据的缺失以及内部复杂的业务逻辑导致原料运输车辆的排队时间难以估计,这极大降低了司机的服务体验。此外,由于排队时间漫长,司机错过预约排队次位导致未及时入厂的情况时有发生,这不
工业高速发展所带来的生态安全问题成为全球面临的最大挑战之一,引起世界各国政府和学术界的高度关注。在诸多生态安全问题中又以水环境安全对人类生产和生活的影响最大。近年来,我国的水环境污染问题与社会工业进步之间的矛盾日显突出。因制药企业、化工厂、染料公司等废水大量排放以及农业化肥的肆意使用,使水体中积聚了越来越多的难降解、有毒、有害的大分子物质,严重威胁着人类的健康以及生态系统的安全。因此,对污水高效、
生产力的不断发展,人类对能源的需求越来越高。由于大量使用化石能源带来的环境污染和能源危机等问题,太阳能引起了人们的重视,因此开发低成本、高效率的太阳能电池近年来受到广泛关注。钙钛矿太阳能电池是其中的热点之一。钙钛矿太阳能电池不仅原材料成本低,生产工艺也非常简单,其中有机-无机杂化钙钛矿太阳能电池在钙钛矿太阳能电池中研究最深入。仅仅十余年的时间光电转换效率已经突破25%,但是由于材料的不稳定,钙钛矿
能源问题是21世纪以来人们关注的重点问题,因为能源是人类文明发展所需要的巨大推动力。随着时代的发展,新能源一直被开发与利用。尤其是近年来大家更加注重对于未来发展有利的清洁能源的探索,太阳能以其取之不尽,用之不竭的特性,成为科研工作者关注的重点,钙钛矿太阳能电池因此应运而生。钙钛矿太阳能电池制备工艺简单,所需材料便于获得,在短短的十余年时间内,其光电转换效率从2009的3.8%到2020年已经超过2
“万物互联”概念的提出,推动着智慧城市与智能家居等各个智能场景下科技的发展,多场景应用无缝体验成为智慧生活的基石。智能设备无法直接观测相关因素,而是通过网络通信等手段感知环境变化和用户需求,在不确定的条件下进行决策。在现实生活中,也普遍存在不确定性问题,这使得我们需要运用先决条件知识和演绎推理并结合不确定性数据进行推断,预估事件发生的可能性。概率是表示不精确和不完备知识的重要工具,概率编程是在不确