非理想条件下的智能语音识别

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:dzflying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能和计算机技术的快速发展,人们对实现人机交互的需求越来越迫切。作为人机交互的关键一环,语音识别技术获得了研究学者的广泛关注,并取得丰富的研究成果。特别地,近年来深度学习在语音识别中的成功应用进一步推进了语音识别技术的发展与应用,然而相关研究仍面临许多困难与挑战。针对现有基于深度学习的语音识别算法存在的痛点问题,如对算力和资源空间需求高、对噪声不够鲁棒等,本文将聚焦非理想情况下的语音识别方法研究,具体内容包括:(1)低资源情况下语音识别方法研究。目前精度较高的语音识别模型往往结构复杂,对算力、资源空间具有很高的需求,具有很大的参数量和计算量,但在实际应用中,许多语音识别模型需要部署在算力有限的设备(如移动端、云端服务器等)上,太过庞大的网络规模是一种负担,这种情况下需要在尽量保证识别精度的基础上对模型进行最大限度的压缩。针对这一问题,本文采取知识蒸馏算法对语音识别模型进行压缩,以降低模型精度为代价实现了模型参数量和计算量的大幅度减少,并根据语音识别的特点提出对老师模型的输出分类概率进行筛选缓解对模型精度的损伤。在此基础上,为了提高压缩后模型的识别精度,进一步提出对语音识别模型中的自注意机制进行稀疏化,使输入声学特征序列的自身关注度范围缩小,进一步提高了模型的识别率。(2)噪声情况下语音识别方法研究。现实生活中,部署语音识别的设备无可避免地处于各种噪声环境,嘈杂的背景音会对目标音频造成混淆,严重降低语音识别系统的性能。即使语音识别系统前端已经存在各种提高语音信号质量的技术,但噪声无法被完全消减,因此语音识别模型本身也要提高对噪声的鲁棒性。在本文中,采用师生学习的域自适应方法,提高语音识别模型在噪声域的自适应性。与传统的师生学习算法不同,学生模型学习老师模型的中间层输出,试图将干净语音和噪声语音映射到相同的嵌入空间,以达到学习语音在不同环境中的不变特性的目的,实现模型在噪声域的自适应性。通过实验验证了该模型在低信噪比环境下具有自适应性,且对于未知噪声模型依然具有噪声鲁棒性。此外,本文还对超参数温度在中间层输出的作用进行了探索。仿真实验验证了所提方法的有效性。
其他文献
<正>对于未成年人、精神病人、植物人等非完全民事行为能力人,监护人应正确履行监护义务,保障被监护人的财产安全;银行应采取有效措施履行说明告知等义务,在确保业务合规性的同时,综合考虑客户的实际情况和诉求,保障非完全民事行为能力人获得金融服务的合法权益。
期刊
针对噪声治理过程中噪声源的定位及分离问题,本文通过对传声器阵列结构的仿真对比设计优化出18阵元螺旋阵,在此基础上对常用声源识别定位算法进行研究,选择高分辨MVDR算法对汽车鸣笛声进行测量识别实验,实验结果表明该"声相仪"系统能够很好地识别汽车鸣笛时的噪声效果,解决高分辨目标方位估计问题,验证了该声相仪系统的有效性。
直播电商革新了农村传统发展方式,是乡村振兴战略的强力引擎,也是农业现代化的重要动力。直播带货作为电商经济的新业态,在农产品直播营销中存在一些问题,如人才契合度低、消费习惯难培养、忽视精神价值、现有风格易视觉疲劳等现状有待提升。基于4I理论,“东方甄选”爆火背后是其用丰富生动的内容换取停留时间,满足价值需求助推品牌长远发展,多样话题设置调动用户参与氛围,差异化的场景打造自身文化符号。“东方甄选”围绕
目前,语音识别的测试需要提供语音及其转录文本,测试语音需要涵盖各个场景下的语音输入,因此,测试语音的数量远远不够。鉴于用户评论中包含用户使用场景等可辅助测试的信息,文中提出一种用户评论驱动的语音测试数据生成方法。首先,爬取移动应用市场中语音相关应用的用户评论,对其进行清洗和预处理。其次,提取评论中的语音属性并分析语音属性在评论中的组合。最后,通过数据蜕变对语音种子进行语音属性及其组合的变换,生成语
新课程标准的颁布,进一步推进了素质教育改革的进程。深度学习近几年来成为中小学教学的重点内容。小学语文教学越来越注重学生综合素质的培养,比较阅读策略成为小学语文教学中的重要方法。在传统的教学模式中,大多数教师往往采用较为单一的教学模式,这对于学生学习兴趣的激发和学习习惯的养成以及语文阅读能力的提升都是较为不利的。为了能够有效解决学生语文学习和阅读方面的问题,教师就可以采用“比较阅读”策略,让学生在“
塔可夫斯基的电影空间通过运动的景深镜头实现了可见的深度,而运动的身体与运动背景也在不断的变化中实现了交互的构造。塔可夫斯基电影中的大地是空间的基础,家宅和庙堂是主体意义的存在场所,而故乡作为精神空间的源泉,它的失落将导致身体空间与外部空间的分裂。塔氏电影的梦境空间始终朝现实开放,而其幻觉空间则体现了物迫近下主观空间的萎缩。总的来看,塔可夫斯基电影空间具有内倾性、原初性和自然性三大特征。
在教育信息化迅速普及的背景下,许多学校陆续引进诸多教学辅助设备,如录播教室、教学一体机等。然而在丰富的辅助教学工具中,往往疏忽授课老师最基本的扩声需求。在传统教学过程中,授课老师通常会佩戴耳挂式麦克风或者手持式麦克风等拾音设备,麦克风拾取语音信号后以有线或者无线的方式传送到扬声器完成扩声,这种方式存在麦克风佩戴不舒适等问题。近年来,教室扩声系统开始使用吊装式麦克风替换传统佩戴式麦克风。吊装式麦克风
随着人们安全防范意识的增强,如何利用布设范围广泛的视频监控设备对生活中如跌倒、徘徊以及打架等人体异常行为进行及时有效的检测与预警成为了研究的热点。传统的监控系统采用人力值守,不仅费时费力,而且存在着漏判误判的问题。基于图像处理理论和视频分析技术的人体异常行为检测技术,则可对监控场景中人体异常行为进行及时的识别和预警,具有重要的研究意义。人体异常行为检测包括运动目标检测、运动目标跟踪以及异常行为判断
本文选取乳制品行业的C公司作为研究对象,基于渠道视角,探讨营运资金管理中存在的问题。结果表明,C公司在营运资金管理中存在占用上游供应商的资金较多、客户的应收款项回款慢、线上市场占有率不高等问题。为解决这些问题,本文针对性地提出相关优化建议,以保障乳制品企业实现可持续发展。
《个人信息保护法》第七十条正式确立了个人信息保护公益诉讼制度,用以防止个人信息被公开或者被贩卖等不法行为,维护不特定多数人的正当利益。个人信息保护公益诉讼条款由违法行为、所涉法益和诉权主体三部分组成。就违法行为而言,违法主体是个人信息处理者,违法行为需根据法条规定进行类型化分析;就所涉法益而言,必须是侵犯不特定多数人的合法权益,才能被纳入个人信息保护公益诉讼的范围;就诉权主体而言,现行法律只授权检