论文部分内容阅读
在语音信号处理中,一个重要的问题就是如何从混合语音信号中分离出我们感兴趣的语音。在语音识别,音频检索,助听设备的实际应用中,存在单声道下有多个人声语音同时存在的情况,因为只有一个信道信号,而同时存在多个高度非稳态分布的语音信号,很多CASA系统对于多说话人同时存在的混合语音进行分离时,都不能达到令人满意的分离性能。因此分离这种混合语音成为一种颇具挑战性的课题。
本文利用计算听觉场景分析和语者声学模型相结合的方法,对多个说话人同时存在的单声道混合语音分离算法进行了深入的探索和研究。主要的工作和创新点如下:
·多基音跟踪及其混合语音分离算法研究。由于在多说话人存在的情况下,混合语音中可能存在多个基音,因此如果能够准确的提取出每个说话人的基音,并利用提取出的基音对各个说话人进行组织,将有助于提高分离系统的性能。基于这一思路,本文研究了多基音跟踪算法,利用多通道时频分解的信号在频带上的分段连续性检测基音存在,利用形态学滤波的方法跟踪多基音轨迹,然后,利用多基音跟踪结果进行单声道混合语音分离的方法,将用多基音跟踪算法估计出的混合语音中出现的多个基音一同作为分离线索结合到计算听觉场景分析系统中,从而提高整个系统的分离性能。
·精细谐波结构建模及其应用研究。信号的时频分解带给我们丰富的中层表达信息,而已有的研究中,对这些信息利用不够充足,因而本文作者对各频带的精细谐波结构进行了深入的研究。基音以谐波的形式反映在滤波后各个频率通道内的响应函数中,本文研究了谐波在低频通道的分布规律,并因此建立了频率通道——第一峰值——基音的分布模板和谐波模板,并将谐波模板应用于多基音检测以及利用谐波重建重新合成语音,提高了相应的多基音检测及语音分离算法的性能。
·多说话人识别研究。对于多个说话人同时存在的混合语音,如果能够检测出混合语音中存在的说话人信息,即可以利用相应语者的模型信息,将语者模型的高层信息结合到语音分离系统中。因此本文研究了在混合语音中检测多个说话人的两阶段多语者识别算法,在第一阶段,引入似然得分限制参数和增益补偿参数,利用置信得分计算得到候选语者列表,在第二阶段,利用组合模型算法,在传统说话人识别框架下,得到最优语者组合,并开发了相应的快速算法。实验结果表明,本文提供的两阶段语者识别算法能够准确地检测混合语音中存在的说话人信息,为后续的语音分离研究提供可靠的候选模型。
·语者模型在语音分离中的应用研究。利用高层语音知识对语音分离进行指导,是一种图式驱动的计算听觉场景分析算法,本文深入研究了语者声学模型在语音分离中的应用。本文利用多语者识别的结果选定相应的说话人模型,在计算听觉场景分析的框架下,利用语者模型来推断掩码信号并重新合成语音,提高了语音分离系统的性能。针对二值掩码重新合成的语音信号的频谱缺失问题,本文利用语者模型信息估计实值掩码,在后续的语音识别实验中,验证了实值掩码相对于二值掩码的有效性。