基于听觉计算模型和深度神经网络的双耳语音分离

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:crystalymd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们最重要的交流方式之一。由于日常生活环境中噪声的存在,以及信道传输损失等等因素,语音质量往往会受到影响,我们所接收到的语音中所包含的信息也会大打折扣,因此如何从带噪语音中分离出干净的语音,与人们的日常生活息息相关。故语音分离技术成为语音信号处理中一个重要研究方向。在过去的几十年中,传统的语音分离方法已经有了丰富的研究,例如谱减法,维纳滤波法等。但是传统的语音分离方法对语音和干扰的特性所做的一些假设,在实际生活中可能并不能得到满足,因此也使得其在实际应用场景中的效果大打折扣,比如会使得分离出的语音带有"音乐噪声干扰"等。近年来听觉场景分析这一方法也越来越多地得到人们的重视和研究。该方法受人耳听觉处理系统的启发,通过对语音提取出有效的"场景线索"来进行语音的分离。而基于计算机软件来实现对语音的场景分析和分离方面的研究也方兴未艾。但是目前基于分类神经网络的听觉场景分析方法,虽然能够有效地提高分离后语音的信噪比,但是却没有很好地保证语音的听感,使得语音存在一些不连续性的问题。为此,在本文中,我们重点研究了如何利用深度神经网络来进行语音分离,并改善听感上的不自然的缺点;并基于计算听觉场景分析理论,针对双耳通道语音信号提取出有效的"场景线索",提高模型在带噪环境下的分离性能;通过对人耳听觉计算模型的探索,在听觉皮层感知域层面提取出具有模拟人耳听觉特性的特征,改善语音分离效果。首先,我们提出了一种基于回归神经网络的双耳通道语音分离方法。与分类神经网络进行时频单元的分类和重组不同,我们利用神经网络强大的信息提取和建模能力,直接从输入的带噪语音中估计出干净的目标语音。通过选择网络的学习目标以及最小化均方误差的准则,使得最终估计出的语音特征在时域和频域上都保留了很好的连续性和自然度。实验结果表明基于回归神经网络的分离方法能很大程度地提升分离后语音的听感。其次,在回归模型的基础上,基于听觉场景分析理论,我们提出了一种基于对数能量谱的双通道特征表示方法。在传统的对数能量谱特征上,我们针对双耳通道信息的特点,设计了基于频点和时间的全频带互能量差异性特征和低维度的全局互能量差异性特征。为了使特征在包含足够信息量的同时不至于因维度过高而引入过多参数,我们设计了子频带互能量差异性特征。实验结果表明我们设计的双通道能量差异性特征有效地利用了双耳通道信息,较好地提升了分离效果,且基于子频带互能量差异性特征的系统性能更优。最后,通过对听觉计算模型领域的学习,我们提出了基于听觉皮层时频感知域特征的语音分离方法。通过对已有的数学模型的研究,我们针对双耳通道语音设计了模拟时频感知域特性的二维滤波器。此外针对时频感知域特征的维度过高问题,我们提出并采用了多种特征降维方式。比如单通道中的频域平均的方法和主成份分析的方法。在提取双通道"线索"时,我们设计了时频感知域能量差特征,并使用了全局加权和和分区加权和的降维方式。使得双通道特征在尺度组合上能达到最优,另外还设计了分频带加权和方法,使得双通道特征在尺度组合上和不同频带上都能达到最优。通过模型对加权系数的学习,我们最终得到了一套有效的降维的时频感知域能量差特征。实验结果表明自动学习的特征组合方式能更有效地提升模型的分离效果。
其他文献
校园是一个人口密集区,并且人员的流动性和接触率很高。当大规模流行病或传染病(如非典、禽流感)爆发的时候,校园的这些特点使得它很容易成为受灾区,而人体体温异常是这些流
LTE是3GPP组织提出的向4G移动通信演进的3.9G标准,该标准通过采用OFDMA、MIMO等多种先进技术使其数据传输速率较3G移动系统有较大的提高,下行理论速率可达100兆比特/秒,上行
基于视频图像的运动目标跟踪是计算机视觉的热点研究方向,在科学研究、工程应用和生产生活中都具有重要的研究价值,其研究成果可以应用于智能人机交互、医疗诊断、机器人、智
如何搞好中小学数学教学衔接,使中小学的数学教学具有连续性和统一性,使学生的数学知识和能力都衔接自如,是摆在我们教师面前的一个重要任务.中小学数学教学衔接主要是心理引
随着互联网技术和通信技术的不断发展,网络已经融入到人们生活的方方面面,给人们的生活带来了极大的方便。但是与此同时,各种网络攻击手段层出不穷,网络空间的安全受到极大的
实践教学在高校教育工作中是与理论教学同等重要的组成部分,也是人才培养的关键环节。随着互联网技术的飞速发展,实施以学生为中心,教师为主导,实验管理员为辅助的网络化实践
新课改是为了满足社会发展的需要,着眼于学生的发展,为此教学就是要把所要传授的知识和技能放到恰当的学习环境中,让学生能够更好的学习和发展.而且这种教育方法教育出来的学
视频监控系统作为日常生产生活中的重要辅助设备,随着嵌入式技术、图像处理以及计算机网络技术的成熟,在这个时代已经成为一种越来越先进的、防范能力更强的安全防护系统了。
随着多媒体技术、计算机技术以及网络技术的飞速发展,视觉信息飞速膨胀,基于内容的图像检索由此得到关注。和基于文本的检索技术不同,它主要根据图像的颜色、纹理、形状等底
高中生良好的课外阅读习惯,不仅可以提高学生的语文素养,更能提高学生的语言表达能力和写作能力.因此,在新课标下的高中语文教学过程中,教师应重视高中生课外阅读能力的培养.