基于深度学习的语音识别及其交互应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:jinn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号包含信息丰富并且使用便捷,是日常交流最常用的方式。语音交互利用语音交流形成人与机器交互的新方式,使得机器使用更为便捷。语音识别是语音交互中最基础、最核心的环节,良好的识别准确率是准确交互的保证。随着应用场景复杂度的提升,传统的语音识别方法对大数据语料的建模能力不足。深度学习处理大数据问题效果显著,将其用于语音识别,能够提升对海量语音的识别准确率。基于深度学习构建语音识别算法,同时对语音用于交互中命令的执行作出研究。传统语音识别系统中GMM-HMM声学模型属于浅层模型,当语音语料库增大时,其建模能力不足。深度学习模型包含了多层非线性计算,能够更好的拟合非线性函数。构建DNN-HMM声学模型能够提升识别准确率,训练模型,最终基于DNN-HMM的识别系统拥有较高的识别准确率。训练声学模型需要对语音帧进行标注,此步骤工作量繁多且需要专家经验,不能满足海量数据的需求。使用循环神经网络处理语音序列信号,结合CTC层作为模型的输出层,构成LSTM-CTC模型,能够利用语音序列中的依赖关系,并且输出不再需要人工标注。实践发现多层LSTM网络训练计算量大,训练时间长,不易收敛。参照生成模型提取分布特征的特点,结合语音信息包含的序列特征,提出了基于生成模型和CTC相结合的语音识别模型。语音交互中准确的从语音信息中提取命令指令并执行操作,是语音交互系统性能的重要指标。研究关键字提取算法完成从文本提取命令,研究对比分析了4种关键字提取算法,RAKE算法能够简洁有效的完成关键字提取。研究基于TensorFlow构建生成模型和CTC相结合的识别模型,最终模型测试的识别词错误率为7.16%,比较接近人类水平的4.58%。研究通过代码实现将算法用于简易小车控制台的语音交互中,结果表明,算法能够准确的分析短语指令,通过接口函数执行相应的操作。
其他文献
南京市作为长三角地区的重要区域中心城市,自然条件禀赋,经济社会发展实力雄厚。但随着城市化高速发展与人口的快速增加,也不得不面对环境容量瓶颈,同时偏重的工业结构与高污
走和平发展的道路不仅符合中国自身发展需要和所处的国际环境,也符合中国思想文化传统和现代理念。历史证明,搞扩张,搞霸权,迟早要吃亏,要垮台。中国的崛起面临的是一场战略
许多半干旱地区由于自然和人为影响而缺乏树木,例如地中海周围的许多国家。因此,植树造林常常是这些国家许多林业部门的首要目标。在以色列,人们用"savanization"一词来描述
中国的政治宪法学是新兴的理论现象,尽管它受到西方理论的影响,但也有其特殊的背景。当代中国的政治宪法学话语值得研究,它提出一种与居于主流地位的规范宪法学不同的思路,它
党的十八大已经胜利召开。在这样承前启后、继往开来的关键时刻,一系列事关党和国家前途命运的重大理论课题,亟需进行充分深入的研究与探讨。其中,如何理解中国的独特性,无疑
随着中国的迅速崛起,部分美国人认为,中美之间的战斗已经打响,比如货币战、贸易战、网络战、间谍战、太空战,而一场更大规模、更加激烈的战斗接下来可能爆发,"中国威胁论"甚
经过改革开放后三十余年的抉择摸索,中国的综合实力、国际竞争力、国际影响力令人刮目相看,并走出了一条前无古人、底蕴深厚的中国道路。站在新时代的起点上,客观审视总结这条道路的起始脉络与利弊得失,汲取历史经验,增强理论自觉,加强横纵两个方向的对比分析,并使之不断修正和完善,是学界、政界难以回避的重大课题。  道路,是一个政党和国家发展实践最形象、最有力的概括和说明。在发展成绩基础上提炼的道路自信,是进一
<正>一题多变是传统应试教育背景下产生的一种较为前卫的复习行为,它旨在通过"一题多变"的形式达成对学生多个知识点、多个方面进行复习和训练,最终服务于学生能从一个立体的
依据窄带不锈钢冷轧支承辊使用工况,选择了YJ012–S堆焊过渡层和YJ243–S药芯焊丝作为堆焊工作层并辅以焊前预热和焊后回火热处理的自动埋弧堆焊工艺对冷轧支承辊进行堆焊修
功能梯度材料是近年来发展起来的一种新型智能材料,由于其所具有的独特的功能特性,已被广泛应用于工程领域。形状记忆合金由于具有独特的形状记忆效应和伪弹性等特点也已经成