基于深度学习的单通道语音分离

来源 :内蒙古大学 | 被引量 : 14次 | 上传用户:qfcywm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离包括人声与人声的分离、人声与噪声的分离,本文主要的研究工作是人声与噪声的分离,也称为语音增强。随着人工智能的日益发展,语音交互技术在现实生活的应用日益广泛,但是噪声的干扰往往会严重降低语音交互性能,因此语音和噪声的分离工作就显得尤为重要,另外由于很多语音交互的场景是基于单麦克风的,所以近年来基于单麦克风的语音分离技术受到越来越多很多科研人员的关注。传统单通道语音分离算法可分为基于无监督的单通道语音分离和基于有监督的单通道语音分离两大类。基于无监督的单通道语音分离技术大多基于数字信号处理技术,如谱减法、维纳滤波等。传统基于有监督的语音分离算法比较常用的有:基于浅层人工神经网络的语音分离、基于非负矩阵分解(NMF)的语音分离和基于隐马尔可夫模型(HMM)的语音分离。近年来,随着深度神经网络(DNN)技术的不断发展,基于DNN的单通道语音分离技术取得了很大进展。DNN强大的非线性建模能力使得基于DNN的语音分离能取得很好的分离效果。基于DNN的单通道语音分离逐渐成为语音分离任务中一个新的发展趋势。本文首先分析了传统语音分离算法和基于DNN的语音分离算法的优缺点,然后提出了两种改进算法:(1)基于DNN和非负矩阵分解(NMF)的联合优化模型。(2)基于DNN和卷积非负矩阵分解(CNMF)的联合优化模型。最后通过一系列实验证明了算法的有效性。
其他文献
随着嵌入式系统功能的日益强大,在享受嵌入式设备对现代生活带来便捷的同时,系统对能耗的要求也不断增加。而嵌入式便携设备均采用电池作为主要能源,但是电池技术的发展速度远跟
Internet技术的快速发展和Web服务的日益增多以及互联网的迅速普及,使分布式计算得到了长足的发展。如何在众多的Web服务中灵活、快速、准确地发现及组合满足用户需求的服务
统一建模语言(Unified Modeling Language, UML)是一种通用的图形建模语言,它已成为面向对象分析和设计的工业标准。UML采用元模型、对象约束语言(Object Constraint Languag
随着无线传感器网络技术的快速发展和日益成熟,无线技术走入了工业控制系统领域,并成为了工业控制系统研究的热点;工业无线技术拥有低成本、低功耗、部署简单等众多优点,拥有
绝大部分的蛋白质相互作用结合自由能仅由少数关键残基所贡献,这种残基被称为热点残基。热点残基对我们理解蛋白质功能和研究蛋白质相互作用非常重要。目前主要通过丙氨酸突变
计算机三维动画与虚拟现实是计算机图形学的一类典型应用,而基于真实感的物理模拟正是这些应用背后的技术支撑,具有重要研究意义。基于真实感的物理模拟由于问题本身的高计算
镁合金具有比重小、绿色环保等优点,日益成为汽车、航空航天以及电子消费品等领域的重要材料。但是,镁合金的耐腐蚀性能较差,这一直是阻碍其进一步应用的主要因素,也是镁合金研究
基于浏览器的偷渡式下载攻击(Drive-by Download Attacks)已经成为当前最具威胁的恶意攻击方式之一。与正常的弹出式下载方式不同,偷渡式下载攻击在不与用户交互的情况下利用系
作为功能特性非常丰富的嵌入式多媒体操作系统,Android因具有优良的跨平台特性,和强大的多媒体特性,以及软件开发的便捷性和开源特点,发展至今日,已延伸到了整个移动终端领域
云计算以其虚拟化、按需服务等特点吸引了越来越多的应用系统迁移到云上。但是,云平台底层基础设施的高度复杂性使得云数据中心会经受大量的故障,并降低云应用系统的可靠性。