【摘 要】
:
随着近些年来,深度学习和机器学习在各个领域变得日渐火热和流行。融合了深度神经网络和隐马尔可夫思想(HMM-DNN)方法的混合模型,帮助传统的语音识别模型在准确率上更上一层楼。虽然识别效果不错,但是混合系统模型依旧面对着许多难点比如:解码消耗的计算空间大,训练流程不够简洁明了等问题。为了能够解决这些难点,基于端到端的语音识别方法应运而生。其中以基于注意力机制的端到端模型效果最佳,目前主流的效果比较好
论文部分内容阅读
随着近些年来,深度学习和机器学习在各个领域变得日渐火热和流行。融合了深度神经网络和隐马尔可夫思想(HMM-DNN)方法的混合模型,帮助传统的语音识别模型在准确率上更上一层楼。虽然识别效果不错,但是混合系统模型依旧面对着许多难点比如:解码消耗的计算空间大,训练流程不够简洁明了等问题。为了能够解决这些难点,基于端到端的语音识别方法应运而生。其中以基于注意力机制的端到端模型效果最佳,目前主流的效果比较好模型包括有:听,注意,拼写模型(Listen,Attend and Spell,LAS),Transformer模型以及深度前馈序列记忆网络(DFSMN)模型。虽然目前端到端的语音识别方法效果不错,但是也没有达到尽善尽美的程度,其中依旧存在一些问题有待研究,本文主要研究了端到端语音识别的建模问题,主要工作如下:1.研究和改进了基于LAS的端到端语音识别模型。在LAS的模型基础上,提出了一种基于混淆矩阵的标签采样方法,该方法可以纠正LAS的解码错误,因此称作纠正性训练,提高了模型的识别效果,增加了模型的鲁棒性。除此之外,本文还对于LAS的输入特征进行了对比,并确定全梅尔频谱特征的效果最佳。并且在此基础上,本文还做了一些工作优化模型的训练,比如实现了最小词错率和最大互信息两种区分性训练的方式,使用剪枝搜索解码等来优化网络的训练,达到了提高模型识别准确率的效果。2.研究和改进基于LAS模型编码器的编码方法。通过本文分析认为LAS的框架原理与人的语音识别体系最为贴近,因此本文选择LAS为基本框架,通过替换编码器的方式,来探究三种不同(LAS,Transformer,DFSMN)的编码器对于语音识别结果的影响。然后对于三种不同的编码器,进行了编码器结构的比较、优化和组合:利用ConvLSTM结构来优化LAS的金字塔形LSTM结构,取得效果上的提升;在CNN和Transformer的编码器基础之上利用ConvTransformer模块来改进编码器结构,并且探究了网络各个模块的深度对于识别准确率的影响;用卷积模块来优化DFSMN,三种方法均取得效果上的提升,识别准确率超过baseLAS。进一步证明和体现了CNN的卷积不变性特点对于语音识别的声学处理是非常有效果的。综上,本文首先对LAS本身的框架进行了深入探究,并且提出优化改进,以及采用了一些训练方面的技巧使得LAS的性能得以提升。此外,还对三种主流端到端语音识别框架(LAS,Transformer,DFSMN)的编码器进行探究和改进,并且提出一些网络结构上面的改进使得三种编码器的效果都超过LAS的基线系统。
其他文献
全过程工程咨询服务项目业主与咨询方需要形成相互依存的合作共赢关系,通过组织间合作提升业主的项目管理能力,实现项目价值增值。但由于双方人员具有跨组织、跨职能、跨专业的特点,合作效率容易受到知识差异及认知偏差的影响。因此,组织间知识共享具有重要作用,而何种控制机制能够更好地管理业主与咨询方的组织间关系从而促进知识共享、各控制机制选择的前置影响因素及其交互作用尚待探索验证。有鉴于此,研究从全过程工程咨询
近年来,国内外反恐形势日趋严峻,安检问题成为各国社会普遍关注的问题。采用毫米波安检成像称为当前研究的热点问题。在安检时,采用主动式毫米波成像快速安检,能够在毫无察觉的情况下,对行人进行快速安检,可以适用在机场,地铁,火车站等多种场合,提高安检效率和质量。需要注意的是:毫米波是频率范围在30GHz-300GHz的微波,波长范围为1mm-10mm;因其波长短,行人的很小位置移动将引起回波相位的较大变化
青年是祖国的未来和希望,大学生的价值取向将决定整个国家乃至整个民族的未来发展方向,然而新的历史方位下意识形态领域斗争更加深刻复杂,以价值观引领为核心的软实力竞争愈演愈烈,这就要求大学生思想政治教育要主动求变以适应新时代。笔者认为航空航天精神作为民族精神的重要组成,既具历史继承又具时代发扬,是大学生思想政治教育优秀的教育资源,航空航天精神融入大学生思想政治教育将会显著提升高校思想政治教育的针对性、实
近年来,随着无人机相关技术的成熟,飞行自组网的概念被提出,飞行自组网是继移动自组网与车辆网之后的新的自组网,被广泛应用于各种军事与民用场景中。运动模型是飞行自组网研究的一个重要方面,运动模型用于模拟真实无人机节点的运动和实际的飞行自组网环境,是对飞行自组网其它后续研究的基础。群智能经过数十年的丰富和完善,如今已经成为优化理论中不可或缺的一部分。群智能的基础理论与飞行自组网的需要有着诸多的相似之处,
图书定位功能在大规模图书典藏管理中起着至关重要的作用,尤其在图书发生错架摆放的情况下。传统图书定位方法一方面人力成本高昂,效率低下,另一方面需要对图书馆进行大规模改造,部署复杂。面对该现状,近年有研究人员提出一种先进的图书定位方法,将RFID与移动机器人技术相结合,移动机器人代替人力进行沿书架扫描,RFID用于定位图书。然而他们大多数使用超高频RFID技术定位图书,无法适用于已经部署高频RFID系
随着我国城市规模的不断扩大,城市经济发展和人口扩张对土地的利用类型、植被、水文、气候等方面产生了显著的影响。生态承载力是评价社会经济发展对资源、能源环境影响干扰程度的重要标准,是城市发展过程中重要的限制性条件,也是对城市可持续发展提出的定量化要求。天目山-怀玉山区水源涵养与生物多样性保护重要区主要涉及浙江省的杭州、湖州、衢州,江西省的上饶、景德镇、九江,以及安徽省的宣城、黄山、池州。该地区具有重要
视觉是人类感知的主要感官形态,语言是人类与世界交流的最有力的工具。而图像摘要生成技术是计算机视觉和自然语言处理相结合的产物。简单地说,就是给计算机输入一张图片,可以根据图像内容生成一段流利通顺的自然语言描述。图像摘要生成技术在搜索引擎、盲人辅听和智能机器人等领域都取得了良好的应用效果,有着十分可观的应用前景。生成技术主要包括基于模板和基于检索的两种方法,但都存在非常明显的缺陷。最近几年,基于深度学
近年来,伴随着国家大力倡导提升广大人民的保险意识,保险行业迎来了新的发展机遇与挑战。在保险公司日常工作中起到关键作用的是企业中为数众多的保险代理人员。无论是专业产品介绍、详细业务办理、出险理赔或是长期维护都需要保险代理人员去衔接。目前,大部分保险公司只着眼于人才的吸引和聘用而忽视了人才的保留与培育,对于作为企业核心竞争力的保险代理人员的工作心态状况未能加以足够的关注。保险代理人员工作心态反馈出的工
笔者经过深入田野调查,详细描述了马边彝族婚姻缔结过程中的每个仪式,通过分析仪式外显的文化表征来探究彝族婚姻文化蕴含,阐述彝族传统婚姻文化的现代性变迁,分析马边彝族婚
乡村建设是我国新发展格局下乡村振兴的重要组成内容,实施乡村景观规划建设是改善乡村人居环境、提升乡村风貌、推动乡村振兴的重要举措。其中文化艺术是推进乡村建设的重要源泉,在乡村景观建设进程中发挥着不可替代的重要作用,艺术家以艺术独有的方式参与到乡村景观建设中来,艺术介入乡村景观作为探索解决乡村发展问题的新模式,成为实现乡村社会、人文、生态、风貌修复的有效途径。在传统文化精神不断缺失、乡村面临转型和复兴