基于计算听觉场景分析的单信道语言分离

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:qq123287
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:单信道语音分离(Single-channel speech separation, SCSS)指在无法预知声源先验信息的情况下,仅根据观测到的单路混合信号恢复原声源的过程。计算听觉场景分析(Computational auditory scene analysis, CASA)是解决该问题的一种新方法。它通过寻找语音中感知相关的区分性特征实现语音分离,并避免了对噪声特性的过多假设。当前,CASA的研究主要集中于两个方向:1)数据驱动型CASA;2)基于模型的CASA。前者主要对应于生物快速的、本能的条件反射;而后者主要针对相对缓慢的、高层的推理过程。在应对复杂声场景时,生物所具备的迅速反应能力预示着声源分离的工作很大程度是在底层完成的。有鉴于此,本文对数据驱动型CASA进行了较为深入的研究,其中主要的工作和贡献如下:1.针对短时幅度调制谱(Amplitude modulation spectrum, AMS)分辨率低的特点,提出了一种重分配(reassignment)策略的双话者(Co-channel)语音分离算法。该算法通过可变截止频率的低通滤波器抽取出依子带变化的幅度调制信号(Amplitude Modulation, AM);接着,将抽取出的AM信号谱(spectrum)上的每一能量点重新放置,有效实现了信号成分的会聚,并缓解了时间分辨率和频率分辨率的矛盾。实验结果表明,基于重分配AMS的语音分离方法具有明显改善的性能。2.受Schroeder直方图、Goldstein听觉感知理论以及Meddis’‘相关图”(Correlo-gram)的启发,提出了一种基于“高斯图”(Gaussgram)的多基音(multi-pitch)检测算法。“高斯图”通过采用可变带宽的高斯函数修正“相关图”得到,具有抑制次谐波(sub-harmonics)的特点。将其用于检测基音,单帧基音检测的半频错误明显减少。另一方面,该方法采用检测得到的主基音轨迹消除其次谐波轨迹,进一步抑制了半频错误。系统评估表明,提出的多基音检测算法具有更少的倍/半频错误。3.提出了一种多层感知器的量化门限自适应新方法,从而给出一种改进的多层感知器(Multi-layer perceptron,MLP)。将该MLP嵌入CASA计算框架,可以提高系统在训练和测试信噪比(Signal-to-noise ratio, SNR)不匹配条件下的鲁棒性,减少性能的下滑。对比实验表明,该方法可以改善分离系统在不同SNR下的性能。
其他文献
介绍了国外用污泥焚烧灰制彩色烧结铺地砖的研究过程及其结果。该彩色烧结铺地砖具有着色成本低、节省天然原料、利废环保等优点,具有良好的开发和应用前景。
一、试点工作取得比较明显的成效吉林、黑龙江是全国首批进行免征农业税试点的省份,在贯彻落实全国农村税费改革试点工作会议精神,执行了中央"一免两补"(即免征农业税、发放
目的:观察他克莫司软膏联合外用重组人表皮生长因子喷剂治疗糜烂型口腔扁平苔藓(EOLP)的临床疗效。方法:选择2016年4月-2019年4月在本院口腔科就诊的EOLP患者91例。采用电脑
【正】 石家庄轴承设备股份有限公司(以下简称轴设股份)是国家机电部定点生产高精度专用磨床的专业企业,是河北省首批“科技先导型企业”之一。 市场经济的快速发展,要求企业
《消费者权益保护法》所确立的惩罚性赔偿制度,催生了职业打假现象。职业打假客观上打击了不法经营者,有助于维护市场秩序的稳定。但同时也逐渐暴露其弊端。此外,司法实践对
浙教版普通高中课程标准实验教科书《多媒体技术应用》(高中版)第三章“媒体的采集与制作”中的图像处理软件Photoshop(以下称PS)学习部分,是PS学习的起始篇。学生初次接触PS软件,
本文作者以回转支承为对象,研究设计型专家系统的各方面特点,讨论设计型专家系统的知识描述、知识再利用以及专家系统人机界面的设计准则。
目的观察用生姜外敷至阴穴治疗胎位不正的效果。方法对100例胎位不正孕妇进行治疗并观察疗效。实验组50例采用生姜外敷至阴穴治疗法;对照组50例采用传统的膝胸卧位和艾灸至阴
21世纪起,高校招生规模不断扩大,高等教育开始大规模普及,我国每年都会有几百万的应届大学生从校园走入社会成为职场新人。为了能在工作后尽快适应职场环境,许多大学生会选择
<正>江西省交通厅航务管理局、江西省地方海事局、江西省船舶检验局是&#39;三牌合一&#39;的行政执法机构,是多元的行政执法主体。实行垂直管理体制。按照
期刊