基于深度学习的语音分离方法及实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:wh104311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音控制的智能化需求逐渐增加,语音识别的重要性也显著上升。但在复杂的实际环境中,语音会夹杂各种干扰,导致语音识别的性能受到明显影响。语音分离能为各类语音交互应用提供清晰、纯净的语音,已成为语音识别不可或缺的前端处理。传统基于信号处理的去噪方法并没有利用到语音的本质特征:谐波与基音,因此性能受限。而计算听觉场景分析的语音分离方法仍然存在一些难题,如语音的清音部分难以分离并且基音特征易受到干扰。随着近年来深度学习算法的发展,越来越多的深层神经网络应用于语音分离。深层神经网络凭借多层非线性结构,擅长挖掘语音信号中的深层特征,因此将深度学习应用于语音分离具有重要的研究意义。尽管基于深度学习的方法在语音分离中表现出色,但仍然存在相位难以分离的问题。目前,语音分离的主要目标是振幅分离,重构分离语音时使用混合语音的相位。单人语音的相位是连续渐变的,混合语音相位的连续性渐变受到影响,会使分离语音的音质变差,有时会导致分离语音中出现窜音现象。为了解决这个问题,本文使用葛氏林氏算法(Griffin-Lim算法)重构分离语音。Griffin-Lim算法使用模型输出的振幅估计通过迭代获得连续渐变的相位,进行波形重构,解决了相位难以分离的问题,能有效防止重构分离语音时混合语音相位的干扰,能有效提高分离语音的音质。本文的主要研究内容是单通道语音的分离。本文设计了一种基于Griffin-Lim算法的语音相位分离方法,将梅尔频率倒谱系数输入长短时记忆模型进行掩蔽估计,提取振幅谱并做振幅平滑后使用Griffin-Lim算法重构分离语音。实验结果表明,本文的方法能有效消除混合语音中的各类噪声,并且在阵发性噪声、低信噪比的条件下分离语音仍然具有较好的可懂度与听觉感知质量。本文给出了一种基于深度聚类和Griffin-Lim算法的男女双人混合语音分离方法,向模型输入梅尔频率倒谱系数与振幅谱联合特征,将语音特征及其上下文映射到高维空间,对高维特征进行聚类获得二值掩蔽估计,提取振幅谱后使用Griffin-Lim算法重构分离语音。实验结果表明,本文的方法能有效地分离男女双人同时说话的混合语音,针对每个说话人能得到较清晰的分离语音。本文初步设计并实现了一个语音分离系统,验证了上述方法的有效性。该语音分离系统可进行单人语音信噪分离或男女双人混合语音分离,读入待分离语音文件并选择分离类型后可输出分离语音、绘制分离语音波形并播放分离语音。测试表明该系统运行可靠,分离语音具有较好的音质。
其他文献
自由活塞发动机是一种新颖的能量转换装置,以其可变压缩比、可变燃料、热效率高等优势,近年来倍受研究人员的关注。目前,自由活塞的往复运动控制问题仍然是制约其发展的一大挑战。本文在课题组多年研究的基础上,以一种对置活塞式自由活塞发动机为研究对象,对自由活塞的往复运动控制展开仿真与试验研究。具体包括以下几个方面的工作:(1)分析了自由活塞发电系统的工作过程。建立了各个子系统的热力学模型和动力学模型。在Ma
随着社会信息化和数字化的发展,数字视频技术在军事作战、安防监控和自动驾驶等领域得到广泛应用。人眼对色彩的变化极为敏感,但低照度环境下采集的视频色彩丢失、质量退化严重,极大的限制了夜间安防、自动驾驶等领域的发展。因此,增强彩色低照度视频,提升视频质量,更有效地获得场景信息是当前研究的重点。本文以FPGA为核心,基于低照度视频增强算法,设计了一款小型化、实时彩色低照度成像系统。主要研究内容如下:为取得
当前,世界各地由相继故障引起的大停电灾难时有发生。因此,全方位地分析和研究相继故障过程对保障电网安全稳定运行具有重要意义。本文基于电网仿真数据,借助网络理论和强化学习方法,对电网相继故障过程及其控制进行了研究。主要研究内容如下:1)针对考虑关键线路的智能电网攻击方法,研究了基于强化学习的顺序攻击方法,并提出了改进的强化学习探索策略。相较于已有的电网攻击方法研究,考虑关键线路的攻击方法研究更符合电网
本文研究了基于4D毫米波雷达与IMU(Inertial Measurement Unit,惯性测量单元)融合的车载SLAM(Simultaneous Localization and Mapping,同步定位和地图构建)技术,分析了基于4D毫米波雷达与组合导航系统的数据预处理算法,研究了基于Cartographer的定位与建图优化算法,具体实现了一种基于4D毫米波雷达与IMU融合的车载SLAM系统
隐蔽目标的探测一直都是军事上重点研究的领域,随着高光谱成像技术的发展,为这一领域提供了新的解决思路。利用高光谱数据高的谱间分辨率,可以更精准的反映目标和背景的光谱特性,从而提取出隐蔽目标。但高光谱数据冗余信息多、数据量大、空间分辨率低,为后续隐蔽目标探测带来了极大的干扰。本文通过研究高光谱降维技术,去除冗余信息,减少数据量。对于高光谱数据空间分辨率低的问题,考虑到多光谱数据具有较高的空间分辨率,但
传统的基于监督学习的图像分类系统由于深度学习技术和常见类别的大规模数据集的快速发展而取得了良好的效果。Image Net数据集上的一些方法在top-5上已达到95%以上,这已经超出人类水平。然而,由于世界上的物种数量庞大,新的物种不断产生且难以获得,所以不可能在一个分类模型中包含所有的类别。因此,现在的挑战是如何使预先训练好的模型能够泛化到新的类别,而不需要收集带有结构化注释的新训练示例。零样本学
如今,雷达已经在侦察、测绘、制导、火控以及防撞、气象等军民领域得到广泛应用。本文针对弹载高度表用射频前端开展研究,主要工作包括:(1)在对比现有弹载高度表技术实现方案基础上,确定了本课题采用K波段弹载线性调频连续波体制,根据实际应用背景和技术要求,完成了射频前端方案选择和关键模块参数指标计算和仿真。(2)一发双收微带阵列天线设计。针对测角需求,结合空间结构要求,采用一发双收微带阵列天线,在对天线阵
在军事战争中,箔条作为常用的无源干扰物,发挥着反舰、反导等作用。因此,研究箔条云的电磁散射特性和多普勒特性对雷达干扰与抗干扰技术具有很大的意义。基于此,本文的主要研究内容如下:本文首先在考虑箔条间耦合的情况,运用双层球面等效源区域分解算法(D-EPA-Bo R)对箔条云进行电磁建模。为了能够更加快速求解大量箔条云的散射特性,在只考虑2个波长内的近场耦合时,对该算法分别进行MPI并行和Open MP
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)作为自动导航技术的核心,发挥着至关重要的作用。在SLAM常用传感器中,相机凭借着丰富的图像表示以及价格低廉等优点受到研究者们的青睐。基于相机传感器的SLAM,又称之为视觉SLAM,相机位姿估计是视觉SLAM的基础模块。位姿估计的精度将直接影响后续建图与定位的结果,实现鲁棒且高精度的相机位姿估计
有限周期结构是由单个阵元均匀周期排布形成的结构,在相控阵天线、FSS、超表面等方面具有广泛的应用。在分析有限周期结构的电磁问题时,随着仿真结构的计算规模越来越大,导致计算机内存不足和计算效率下降。因此本文以时域谱元法为基础,以减少内存损耗和加速数值计算为目的,分析有限周期结构的电磁问题。本文首先提出了任意高阶子域级时域谱元(ADER-SL-SETD)方法,该方法在分析有限周期结构时实现了内存消耗的