基于计算听觉场景分析和语者模型的语音分离研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:y123321y886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音信号处理中,一个重要的问题就是如何从混合语音信号中分离出我们感兴趣的语音。在语音识别,音频检索,助听设备的实际应用中,存在单声道下有多个人声语音同时存在的情况,因为只有一个信道信号,而同时存在多个高度非稳态分布的语音信号,很多CASA系统对于多说话人同时存在的混合语音进行分离时,都不能达到令人满意的分离性能。因此分离这种混合语音成为一种颇具挑战性的课题。   本文利用计算听觉场景分析和语者声学模型相结合的方法,对多个说话人同时存在的单声道混合语音分离算法进行了深入的探索和研究。主要的工作和创新点如下:   ·多基音跟踪及其混合语音分离算法研究。由于在多说话人存在的情况下,混合语音中可能存在多个基音,因此如果能够准确的提取出每个说话人的基音,并利用提取出的基音对各个说话人进行组织,将有助于提高分离系统的性能。基于这一思路,本文研究了多基音跟踪算法,利用多通道时频分解的信号在频带上的分段连续性检测基音存在,利用形态学滤波的方法跟踪多基音轨迹,然后,利用多基音跟踪结果进行单声道混合语音分离的方法,将用多基音跟踪算法估计出的混合语音中出现的多个基音一同作为分离线索结合到计算听觉场景分析系统中,从而提高整个系统的分离性能。   ·精细谐波结构建模及其应用研究。信号的时频分解带给我们丰富的中层表达信息,而已有的研究中,对这些信息利用不够充足,因而本文作者对各频带的精细谐波结构进行了深入的研究。基音以谐波的形式反映在滤波后各个频率通道内的响应函数中,本文研究了谐波在低频通道的分布规律,并因此建立了频率通道——第一峰值——基音的分布模板和谐波模板,并将谐波模板应用于多基音检测以及利用谐波重建重新合成语音,提高了相应的多基音检测及语音分离算法的性能。   ·多说话人识别研究。对于多个说话人同时存在的混合语音,如果能够检测出混合语音中存在的说话人信息,即可以利用相应语者的模型信息,将语者模型的高层信息结合到语音分离系统中。因此本文研究了在混合语音中检测多个说话人的两阶段多语者识别算法,在第一阶段,引入似然得分限制参数和增益补偿参数,利用置信得分计算得到候选语者列表,在第二阶段,利用组合模型算法,在传统说话人识别框架下,得到最优语者组合,并开发了相应的快速算法。实验结果表明,本文提供的两阶段语者识别算法能够准确地检测混合语音中存在的说话人信息,为后续的语音分离研究提供可靠的候选模型。   ·语者模型在语音分离中的应用研究。利用高层语音知识对语音分离进行指导,是一种图式驱动的计算听觉场景分析算法,本文深入研究了语者声学模型在语音分离中的应用。本文利用多语者识别的结果选定相应的说话人模型,在计算听觉场景分析的框架下,利用语者模型来推断掩码信号并重新合成语音,提高了语音分离系统的性能。针对二值掩码重新合成的语音信号的频谱缺失问题,本文利用语者模型信息估计实值掩码,在后续的语音识别实验中,验证了实值掩码相对于二值掩码的有效性。
其他文献
“装甲车辆压缩空气系部件自动测试装置”项目来源于2005年总装综合计划部维修改革项目。本测试系统是为装甲车辆压缩空气系部件的性能试验和九种部件的性能测试而设计的,其
电容层析成像(ECT)和电阻层析成像(ERT)是电学层析成像的两个主要分支,具有非侵入、无辐射、结构简单、成本低、适用范围广、响应速度快、安全性能好等优点,在工业多相流参数
在当前的信息时代中,大量的高维数,复杂结构数据不断涌现,而且对机器自动分析和处理数据的要求越来越高。人们希望机器可以处理各种复杂的任务。而传统机器学习中,以二分类为主的
学位
可靠性的研究作为系统工程研究的一个重要内容,在各个领域中应用很多,电力通信网的可靠性就是其研究的一个分支。随着电力通信网承载着大量的电力生产和管理业务,对其可靠性
无线传感器网络(WSN,Wireless Sensor Networks)是当前在国际上备受关注的、涉及多学科高度交叉、知识高度集成的前沿热点。本文结合家庭健康监护的应用课题,研究和设计一种基
交流电机是当代社会中为生产和人民生活提供动力的重要机械。本论文主要研究交流电机的智能控制问题。由于交流电机自发明以来得到广泛应用,对交流电机的控制问题早已有了许多
随着人类生产及生活水平的提高,世界能源消费量大幅度增长,引发了多次能源危机。由于能源的紧缺以及常规化石燃料所带来的环境污染等一系列严重问题,可再生能源逐步成为常规
随着机器人技术的发展,机器人能力不断提高,其应用领域也在不断扩展,研究人员考虑通过多个机器人的协调与协作来完成单个机器人无法或难以完成的工作。要使多个机器人构成的系统
命名实体翻译和双语命名实体对齐旨在实现命名实体在两种语言之间的转换与对应,是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。尤其在机器翻译系统中,命名实
切换模糊系统是指子系统是模糊系统的一类切换系统,它的研究以切换系统理论和模糊系统理论为基础,有着广泛的理论意义和实际应用价值。在实际工程中,很多因素都能引起不确定