基于深度学习和波束形成的双麦克风语音增强

来源 :天津大学 | 被引量 : 0次 | 上传用户:jianjian9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音交互是人类社会最直接、最自然的沟通交流方式,语音识别作为其中关键技术之一,能够通过识别语音信号,将语音信号转化为对应的文本文字。经过多年的深入研究,自动语音识别技术(ASR)已经取得了重大突破,并且投入到实际应用中,但是目前仍有一些技术难题需要攻克,其中最核心的问题就是降噪的处理。在实际应用中,由于周围环境的不确定性,语音常常会受到环境噪音的影响,进而影响语音的质量,最终使得语音识别率显著下降。因此通过语音增强技术抑制噪音,消除混响,提升复杂环境下的语音识别的准确率,对语音技术在实际生产和生活中的应用是具有重要意义的。在本文中,我们提出了三种融合波束形成与深度学习算法的语音增强算法,并使用Lattice融合的方法,对三种增强算法训练的声学模型进行了融合。首先,对双通道语音信号进行延迟求和波束形成,实现同相位的语音信号相加,从而实现语音的增强。不同于传统的DNN神经网络,我们首先提出了基于注意力驱动循环卷积网络的语音增强算法,其利用CNN提取深层特征,并利用注意力机制对不同帧的贡献度进行区分。其次为了弥补CNN网络中丢失的局部信息,利用U-Net网络中的联合操作,实现了浅层特征与深层特征的融合。此后为了解决训练集和测试集不匹配的问题,进一步提出了混响相关的自注意力机制语音的增强算法,利用WPE对噪声信息进行估计。最终利用Lattice融合的方法,将上述三种算法训练的声学模型进行了融合,得到了新的声学模型。本文中的实验使用REVERB 2014挑战赛提供的数据进行了有效性验证,本文中提出的方法在语音识别的任务中,单词错误率(WER)在开发集相对下降了27.38%,在验证集上相对下降了24.92%。
其他文献
知识图谱近年来越发引人关注,在智能搜索、问答和推荐系统等领域广泛应用。作为其中的重点研究方向,知识图谱推理是根据目前知识图谱中已有信息进行推断,既可以推理出知识图谱中不存在的事实,也可以判断现有事实的正确性,有很大的研究意义和应用价值。目前主要的知识图谱推理模型中,基于翻译表示的模型无法很好地解决语义多样性地问题,基于随机游走的模型又在时间和空间上开销较大。论文提出了基于深度强化学习的多元奖励结构
甲状腺结节是临床十分常见的一类甲状腺疾病,以良性居多,但甲状腺结节潜在的恶性时刻危害着患者的健康,早期的诊断治疗至关重要。超声检查是诊断甲状腺结节的首选成像方法。近年来,有很多机器学习的方法被用于计算机辅助诊断(CAD)中,计算机辅助诊断需具备高精度和高实时性,才能有效提高医生的诊断效率。现有的基于深度学习的语义分割算法虽然精度较高但实时性不足。论文提出了一种能够实时运行并兼具高精度的语义分割网络
随着无线通信技术和嵌入式技术的成熟,无线传感网得到了飞速的发展,并成为物联网的核心技术之一。大量的传感器以无线通信的方式,构成了以多跳、自组织为主要特点的无线传感网络,并应用于军事、医疗健康、智能制造、智能电网和车联网等多个领域。节点复制攻击是无线传感网中常见的攻击方式。在这种攻击之中,攻击者利用被捕获的诚实节点的信息来伪造网络节点,这些伪造的恶意节点被注入网络之后,可以进行传递虚假消息、更改路由
本论文的研究目标是利用一段简短的说话人语音从中生成与说话人真实面孔相似的人脸图像。为了解决该跨模态学习任务,本论文设计了一个端到端的深度神经网络以自监督的方式学习从语音到人脸的抽象映射,论文将模型分为两个部分,在第一部分中通过语音特征提取网络从说话人的语音频谱中提取低维的人脸特征,在第二部分中通过人脸特征解码网络将人脸特征还原为人脸RGB像素图像。由于说话人视频形式的数据自带有说话人语音以及对应的
网络表征学习旨在将网络中的节点表示成低维向量,从而利用这些向量去完成一些网络分析任务,例如节点分类、节点聚类、链接预测和物品推荐。现有的一些基于生成对抗网络的方法通常使用生成对抗网络来对抗学习节点表征分布和某一个特定的分布,从而使节点表征分布具有某一个特定的分布作为先验分布,比如高斯分布。但是,这种对抗学习策略一是无法学习更加丰富的节点表征信息,二是没有充分利用生成对抗网络的本质优势,即对抗地学习
数字水印是保护信息安全的一种有效手段,且音频作为经常使用的媒体类型之一,认证音频水印的研究具有极大潜力。目前的认证水印大多为静态信息,缺乏足够的安全性,且结合深度学习方案的音频水印研究也有待挖掘。论文主要研究基于深度学习的身份认证音频水印算法。对于水印信息生成,论文借鉴语音侧写领域关于人声画像的思想,探讨从音频中获取身份特征作为水印信息的可行性,并提出了基于生成对抗网络的身份水印生成模型。该模型利
随着我国经济的快速发展,人们的生活质量显著提高,食品质量安全问题逐渐引起了人们的关注。胶体金免疫层析技术是层析与免疫分析技术相结合的一种技术,能对现场食品开展快速免疫检测,有效地确认食品的质量安全,从而保证人们日常饮食的健康和安全。本文分析了胶体金免疫层析技术及其在食品检测中的应用,以期为食品检测工作提供参考。
近些年来,大规模视频处理在监控分析、交通管理、在线视频内容检索等方面发挥着愈来愈加重要的作用。同时,借助于深度学习的发展,图像分析的精度逐步得到提高,应用深度学习模型例如目标检测模型以及目标识别模型进行视频处理已经变得十分高效。在视频处理过程中,对于同一个视频,会有来自多个不同用户的多个请求。当这些的请求在查询内容或区间等方面存在重叠时,便会为数据共享带来可能性。由此,通过对多个请求间的重叠部分进
目前,知识图谱已经成为人工智能技术的重要组成部分,拥有强大的语义处理能力和数据关联能力。作为知识图谱上最常见的导航式查询,正则路径查询在近些年被广泛研究和讨论,已经成为一个焦点问题。随着互联网的发展,知识图谱规模日益激增,采用分布式技术成为面对大规模数据的必然选择。部分求值技术已经应用于图数据查询的分布式处理方案,然而,基于部分求值的方法一方面会计算很多无效的部分中间结果;另一方面容易导致计算和通
为了更好的完成大规模知识图谱补全和构建等工作,本文主要研究如何高效地利用分布式技术对大规模知识图谱进行稳定有效的表示学习。在利用分布式技术进行知识图谱表示学习时,会面临对大数据和大模型进行稳定高效处理的同时又要减少语义损失的挑战。所以,通过设计高效的分布式并行模式、参数交互模式以及有效的模型聚合方法等方面的工作来解决问题是非常重要的。本文面向知识图谱表示学习提出了一种基于去中心化混合并行的分布式框