基于计算听觉场景分析的单信道语音分离

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:turandeji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单信道语音分离(Single-channel speech separation,SCSS)指在无法预知声源先验信息的情况下,仅根据观测到的单路混合信号恢复原声源的过程。计算听觉场景分析(Computational auditory scene analysis,CASA)是解决该问题的一种新方法。它通过寻找语音中感知相关的区分性特征实现语音分离,并避免了对噪声特性的过多假设。  当前,CASA的研究主要集中于两个方向:1)数据驱动型CASA;2)基于模型的CASA。前者主要对应于生物快速的、本能的条件反射;而后者主要针对相对缓慢的、高层的推理过程。在应对复杂声场景时,生物所具备的迅速反应能力预示着声源分离的工作很大程度是在底层完成的。有鉴于此,本文对数据驱动型CASA进行了较为深入的研究,其中主要的工作和贡献如下:  1.针对短时幅度调制谱(Amplitude modulation spectrum,AMS)分辨率低的特点,提出了一种重分配(reassignment)策略的双话者(Co-channel)语音分离算法。该算法通过可变截止频率的低通滤波器抽取出依子带变化的幅度调制信号(Amplitude Modulation,AM);接着,将抽取出的AM信号谱(spectrum)上的每一能量点重新放置,有效实现了信号成分的会聚,并缓解了时间分辨率和频率分辨率的矛盾。实验结果表明,基于重分配AMS的语音分离方法具有明显改善的性能。  2.受Schroeder直方图、Goldstein听觉感知理论以及Meddis“相关图”(Correlo-gram)的启发,提出了一种基于“高斯图”(Gaussgram)的多基音(multi-pitch)检测算法。“高斯图”通过采用可变带宽的高斯函数修正“相关图”得到,具有抑制次谐波(sub-harmonics)的特点。将其用于检测基音,单帧基音检测的半频错误明显减少。另一方面,该方法采用检测得到的主基音轨迹消除其次谐波轨迹,进一步抑制了半频错误。系统评估表明,提出的多基音检测算法具有更少的倍/半频错误。  3.提出了一种多层感知器的量化门限自适应新方法,从而给出一种改进的多层感知器(Multi-layer perceptron,MLP)。将该MLP嵌入CASA计算框架,可以提高系统在训练和测试信噪比(Signal-to-noise ratio,SNR)不匹配条件下的鲁棒性,减少性能的下滑。对比实验表明,该方法可以改善分离系统在不同SNR下的性能。  
其他文献
电阻点焊质量受到多种因素的影响而不易稳定,这在一定程度上限制了点焊技术的广泛应用,因此发展一种非破坏性的、低成本、诊断可靠性高的焊点质量评判系统对于现实生产是非常有
随着现代化交通运输系统建设步伐的加快,为了保障人、车、物的安全,减少交通堵塞,缓解交通压力,运用高新技术融合现代化的管理手段来建立通用、高效、实时的车辆监控系统已成为一
随着现代通信系统的飞速发展,无线用户不断增多,通信频率资源变得越来越紧张。为了在有限的频谱范围内容纳更多的通信信道,要求采用频谱利用率更高的线性调制技术,但是这些会导致
网格计算的安全问题是网格计算技术的关键问题之一,特别是随着网格计算从传统的科学计算进入商业应用领域,安全问题的解决更是迫在眉睫。本文的目的就是为了解决网格计算中的安
在移动通信系统中,传播环境和信道特性是很复杂的。为了克服无线信道的时变特性,可以采用各种自适应手段来适应信道的变化。目前的链路自适应技术研究主要集中在物理层,存在
数字助听器能有效改善听损患者的听力水平,然而由于实际环境中存在混响、回响和其它多种干扰源,使数字助听器的性能受到影响,麦克风阵列的引入可以改善这些问题,达到有效的语音增
如今,对视频内容进行搜索和检索的需求越来越迫切,人们对视频中运动对象的提取和跟踪尤其感兴趣。视频通常是以压缩形式保存的,因此人们倾向于不将视频解压,而直接在压缩域中
学位
本文对交通图像的特点进行了分析研究,重点介绍了图像预处理以及人脸特征提取部分,提出了一种基于小波变换的预处理及特征提取算法。在图像预处理阶段,重点研究了图像的降噪
OFDM宽带无线接入技术作为下一代通信网中最具发展潜力的接入技术之一,正受到业界越来越多的关注。IEEE802.16系列规范(也被称为Wimax)的制定,为了适应宽带无线接入的快速发展,