基于EMD的说话人特征参数提取方法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:xinwei313624094
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的不断发展,如何利用机器来识别出不同的人,逐渐被人们所重视。说话人识别研究的是如何将人的语音作为身份标志,让机器依据这个标志辨识出不同的人。作为一种能为人们的日常生活提供便利的技术,说话人识别技术成为人们研究的热点。在说话人识别技术中,研究的核心是能够表征说话人的特征参数,提取了表征性能好的的说话人特征参数,才能准确的识别说话人。美尔频率倒谱系数(MFCC)是基于人耳听觉特性的一种参数,是描述说话人的重要特征参数之一。经验模态分解(EMD)是一种适合于语音信号处理的方法。我们将EMD应用到说话人识别中,可得到一些有意义的结果。本文详细的研究了说话人识别的特征参数的提取方法,分析了目前特征参数提取法的研究现状,主要作了以下工作:(1)MFCC提取法中利用FFT将语音信号从时域转换到频域,但FFT不能反映信号的瞬时变化情况。针对这种情况,本文对这一步骤进行了改进。Wigner-Ville分布是信号能量随时间-频率的分布,它能精确的定位信号的时频结构,但多分量信号的Wigner-Ville分布受困于交叉项的干扰。因此利用Wigner-Ville分布的优点,采用Wigner-Ville谱与FFT结合来代替单独的FFT,进行MFCC参数提取。提出了一种基于时频分析的MFCC参数提取法。通过实验仿真,验证了本方法既抑制了交叉项的干扰,又得到了精准的时频结构。本方法与传统的MFCC提取法相比,说话人识别的正确率有所提高。(2)根据语音信号的非平稳特点,提出了一种基于经验模态分解的语音特征参数提取法。首先利用短时时域处理技术对语音进行去清音处理,再用经验模态分解方法把语音信号分解为一系列固有模态函数(IMF)。一个IMF只含有语音信号的一部分信息,不同IMF分量携带的特征信息不同,对这些IMFs进行加权处理,综合得到新的语音,再对其进行后续处理。这样做的目的是为了突出有效的说话人特征信息,而筛掉一些无用的、不能表征说话人特征的信息。实验表明,该方法比传统的参数提取法更有效。(3)综合前述方法,提出了一种基于EMD与时频分析相结合的提取方法,即先将语音进行EMD分解,对得到的IMF进行加权,然后用FFT与Wigner分布相结合的方法进行MFCC参数提取。运用到说话人识别系统后,实验结果表明,相较于前述的两种方法,该方法大大提高了说话人识别系统的正确率,且鲁棒性较好。(4)ASCC描述的是信号的中频段信息,运用EMD方法和Hilbert变换,将语音信号的中频段(1500Hz-2500Hz)筛选出来,进行ASCC参数提取。然后与MFCC参数组合,提出一种基于Hilbert-Huang变换的MFCC与ASCC的混合参数提取法。实验表明,混合参数较传统的MFCC参数应用于说话人识别系统,正确率有一定提升。
其他文献
本文通过对荣华二采区10
期刊
运动模糊是数字图像成像过程中图像质量变差的主要原因之一,产生运动模糊的主要原因是由相机曝光过程中相机自身的抖动或者被拍摄物体的移动造成的。图像的盲去模糊是一个典型
Petri网是系统描述和分析的有力工具,近年来被广泛地应用于离散事件系统(DES)领域,它不仅能够刻画系统的结构,而且可以描述系统的动态行为。离散事件系统是由不规则时间间隔
人脸识别技术因其广阔的应用前景现在已经成为一个非常热门的研究课题。作为生物特征识别的一个重要分支,因其具有非接触性、普遍性、易采集性等特点,在国家安全、军事安全、
陆地生态系统的净初级生产过程是最重要的生态过程。它一方面受到了外界环境因子的控制,同时也受到植物功能属性比如氮磷计量学特征的限制。探究植物群落生产过程和叶片N、P计