基于计算听觉场景分析和深度神经网络的单通道语音分离研究与验证

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yangwenhuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机语音交互以解放人类双手的巨大优势走进人们的日常生活。日常交流谈话时,人类能够很容易的从喧闹的环境里捕捉到自己想接收到的信号,但对于机器来说,则必须为其提供一套高效的从复杂声学环境里捕捉目标语音信号的方法。在实际应用中,单通道语音虽然提供的有效信息较少,但因使用设备少,成本低等特点,仍被应用于诸多领域,因此实现单通道情况下目标信号的分离问题成为研究者们的重点研究方向。因此,本文主要关注于单通道语音分离问题,主要研究内容如下:(1)计算听觉场景分析(Computational Auditory Scene Analysis,CASA)是基于人耳的听觉感知特性,利用计算机实现对目标信号分离。但随着混合信号中干扰能量的增大,听觉重组过程中的基音追踪效果下降,进而使得系统语音分离性能受损。本文提出一种基于多基音估计来进行时频单元标记方法,在听觉分割和初始重组得到的初步单元标记结果基础上,对目标信号的基音进行估计,并以此对时频单元的标记结果进行修正,考虑到干扰信号中可能含有谐波信号,再次对混合信号中的基音进行第二次估计,最终依据两次基音估计结果及信号特征的连续性,对时频单元标记结果进行修正,以此提高混合信号中目标基音估计的精确度,进而提高语音分离效果。(2)研究了基于Group Lasso的特征选择。随着表述语音的特征类型增多,维数增大,选择恰当的特征成为难题。若表征模型时使用单一特征,会对语音表征不完整;若采用多个特征,可能会导致维度灾难,而且不同特征之间可能存在冗余,不仅会加大计算成本,还会降低模型的准确度。因此,本文对目前得到广泛应用的4个特征参数AMS、RASTA-PLP、MFCC和MRCG进行基于Group Lasso的特征选择,根据计算结果从中选择出AMS+MFCC+MRCG的互补特征组。(3)验证了互补特征组的有效性。针对在噪声匹配和不匹配、添加和不添加delta特征,以及使用IRM或IBM的训练目标的情况下,运用深度神经网络(Deep Neural Network,DNN)对特征组和单一特征及其他的特征组进行训练,并进行对比分析。对比结果表明,在不同情景下,AMS+MFCC+MRCG互补特征组相较于单一特征表现更好,并显著提升了DNN分离性能。
其他文献
化石能源的短缺以及环境问题的恶化,大力推动了电动汽车行业的发展。随着中国电动汽车销售量不断攀升,大批量的动力电池从电动汽车上淘汰下来,退役的动力电池该如何处理成为了一个重要的社会问题。电动汽车动力电池退役后,其实际的容量能达到初始容量的80%,筛选重组后可在储能领域中继续发挥作用。但现阶段动力电池梯次利用的技术和经济性能有限,尚不具备规模经济性。退役电池用于储能是否具有经济性决定了该产业能否成功过
命名实体识别,在自然语言处理研究中属于序列标注任务的其中一种,其目标是识别标记出文本序列中的特殊词语,这些词语一般为地名、机构名、人名等。一个优秀的命名实体识别模型不仅能抽取更多正确有用的信息,还能更好的为其他自然语言任务例如机器翻译、舆情监测等打好基础。基于词典或基于规则的方法是该项技术的传统方法,但这两类方法不仅非常耗费人力物力,而且还依赖于语言学特征,扩展性较差。随着深度学习技术的不断成熟,
轴套-基座过盈连接结构常用于载荷大、冲击强、位置精度要求高的机电产品中。在这类连接中,轴套类零件作为核心元件,受到的损伤较大,修复困难,再制造成本高。研究轴套-基座过盈连接结构无损或少损拆解,有利于进一步提升机电产品再制造的经济和环保效益。本文针对机电产品中过盈配合结构的无损拆解问题,以轴套-基座过盈连接件的无损拆解为典型代表,基于现有的冷激励拆解理论和方法,开展轴套-基座过盈连接件的结构及性能研
日益严重的环境污染和逐渐枯竭的化石能源使得发展高效、节能、零排放的电动汽车越来越到受到世界各国的重视。锂离子电池具有容量大、质量轻、工作寿命长等优点,是电动汽车和混合电动汽车的主要能量来源,但是其对工作温度的敏感性较高。大尺寸动力电池组不仅具有较高的动力,而且还有易于集成等优点,但在保持整个电池组的最佳温度和温度均匀性方面存在较大的热管理挑战,因此设计合理的动力电池热管理系统(Battery Th
轧辊因为服役过程中受热和力的综合作用容易产生损伤,人们迫切需要对其进行修复再制造以节约成本、能源和资源,而激光熔覆技术具有成形质量高、热影响范围小、加工材料多样、自动化程度高等优点,在失效轧辊修复再制造上有显著的优势。目前,激光熔覆修复轧辊的研究以粉末居多,但侧向送丝式激光熔覆技术具有熔覆过程稳定、丝材利用率高、丝材价格低、结构简单等优点。本文针对45号钢轧辊表面的侧向送丝式激光熔覆修复进行研究,
自“互联网+”这一词在2015年被正式提出之后,互联网产业更是蓬勃地发展起来,成为行业主流。面对互联网企业的爆炸式增长,现存企业为了稳固自己在行业中的地位、新兴企业为了快速获得市场份额,就必须思考如何使用互联网实现转型。对传统行业而言,高品牌知名度很大程度上意味着高速发展。而在移动互联网的浪潮中,传统的品牌宣传方式明显不如互联网新媒体传播高效——互联网新媒体更能触达新一代的年轻用户,他们是企业争相
自适应隐写是图像隐写方向的研究热点,它通过有效地设计隐写失真函数,自适应地将秘密信息隐藏在图像复杂的纹理区域,具有很强的隐蔽性。近年来,基于生成对抗网络的隐写失真函数设计研究在空域灰度图像上已经取得了突破性的进展,但是目前还没有针对空域彩色图像的研究。与灰度图像相比,彩色图像隐写需要考虑保护RGB通道间相关性,同时合理地分配RGB三个通道的嵌密容量。本文针对彩色图像自适应隐写展开研究,提出了两种基
无机重金属离子和有机染料是两类常见的水体污染物,对生态环境的稳定和生物健康造成了巨大危害。吸附法因高效、操作简便、成本低廉,且吸附剂可通过合适的解吸过程再生利用而成为研究热点。因此,寻找出一种经济高效且环境友好的吸附剂来治理水体中的重金属和染料污染,是目前缓解水体污染的重要途径之一。氧化石墨烯(GO)具有超高比表面积,且表面和边缘存在大量含氧基团,为污染物的吸附提供了大量吸附位点,同时为GO的进一
汽车车内的噪声环境对乘坐舒适性有着直接的影响,已经成为当前关注的焦点问题。风振噪声作为汽车中高速工况下的主要噪声源之一,极易使驾驶员和乘客感到疲倦与不适,严重影响驾乘体验。目前对于风振噪声的控制,主要采用被动降噪的方式,即通过改变车身结构、安装空气动力学附件等手段影响汽车运行过程中的流场,从而达到降噪的效果。然而,这种方式只能针对特定工况设计,当汽车运行的工况发生改变时,其降噪效果仍待讨论。主动降
随着中国保有车辆的不断增多,道路上的交通事故也越来越多。在交通事故中由于人为原因造成的占90%,追尾碰撞占65%。在此期间,能够避免碰撞或者减轻碰撞程度的自动紧急制动系统引起了人们的极大重视。但即使配备自动紧急制动系统的车辆,由于自动紧急制动系统不能很好地适应真实的交通工况,本不应该发生的交通事故仍无法避免。本文的研究是基于软件在环的方式,利用Pre Scan建立测试场景,利用Car Sim创建车