基于深度神经网络和循环神经网络的语音增强方法研究

来源 :中国工程物理研究院 | 被引量 : 3次 | 上传用户:down222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是指从含有噪声的语音信号中恢复纯净语音信号的任务。语音增强的目的是为了提高被噪声干扰的语音信号的语音质量和可懂度。语音增强有很多的应用领域,包括移动语音通信、助听器设计、自动语音识别和自动说话人识别等。在过去的几十年里,科学家们提出了很多语音增强方法。例如谱减法和维纳滤波法,但这两种经典方法的一个共同问题是将“音乐噪声”引入到了增强后的语音中;直到Malah等人提出了基于最小均方误差估计的语音增强模型,才取得了优于谱减法和维纳滤波的性能,音乐噪声的问题也得到了有效改善;在此之后,众多的基于最小均方误差的语音增强方法被科学家们提出,例如基于最小均方误差准则的对数谱幅度估计算法和最优改进的对数谱幅度估计算法。在这些传统方法中,大部分方法都假设噪声频谱的估计是可用而且准确的,然而在低信噪比的条件下,噪声模型却很难被准确估计,这样就会导致语音增强后的信号出现失真现象。为了克服传统语音增强方法的不足,基于深度学习的语音增强方法近些年来发展迅速,深度神经网络已被成功地应用于语音增强模型的训练。这些新方法使用的训练网络主要包括深度神经网络、卷积神经网络、递归神经网络、生成对抗网络等。此外,还有许多深度神经网络模型与传统方法的结合,例如深度神经网络与维纳滤波的结合,深度神经网络与非负矩阵分解的结合。通过庞大数据集的训练,这些深度学习模型通常都可以获得比传统语音增强方法更好的性能。然而,在我们研究课题的应用场景中,现有的基于深度学习的语音增强方法的性能并不总是令人满意的,因为在军事战场环境下,噪声能量往往在某些语音片段中占据主导地位,因此淹没目标语音,导致语音失真现象的出现。本文针对复杂战场环境中存在例如枪炮声、爆炸声等多种强噪声类型同时干扰目标语音的语音增强问题,提出了一种基于深度神经网络和循环神经网络的语音增强改进方法。在该方法中,基于循环神经网络的语音分类模型判断样本语音信号的每一帧是否处于低信噪比状态,继而根据循环神经网络的输出值融合两个基于深度神经网络的语音增强模型。在实验测试阶段,我们通过语音质量感知评价和短时客观可懂度这两个指标在各种噪声条件下的评分,与现有的基于深度神经网络的语音增强技术进行了比较。实验结果表明,与最先进的技术相比,该方法有显著的性能提升,反映了该方法在真实战场环境中的可用性。
其他文献
廉政文化是文化大概念的一个分支.寓于文化的大环境中,具有丰富而独特的内涵,是人们关于廉政的知识.信仰、规范和与之相适应的生活方式、社会评价。廉政文化建设是以廉洁从政为主
<正>情境教学作为一种新颖的教学方法,在教学实践中有着重要作用。本文主要探讨分析情境教学在小学作文教学中的运用,希望能够对小学作文教学发挥借鉴和指导作用。结合小学作
拓展训练以非常新颖的培训形式和良好的培训效果,风靡了整个欧洲的教育培训领域,并在其后的半个世纪中发展到全世界。拓展训练至今已发展成为培养现代人和熔炼现代组织的一种全