论文部分内容阅读
随着信息技术和通信技术的迅速发展,个人身份认证已经广泛渗透到人们的日常生活中,并且变得越来越重要。作为一种生物认证技术,说话人识别是从语音信号中提取出反映说话人生理和行为特征的语音参数,通过对这些参数的分析,最终识别说话人身份的过程。说话人识别技术具有不会被遗失、方便使用和可靠性高等优点,其广泛的应用前景正受到越来越多学者的重视。 说话人识别技术大体上可以分为特征参数提取和识别模型两部分。因此,要改善说话人识别系统的性能就可以从以上两方面入手。本文用希尔伯特-黄变换(HHT)对语音信号进行处理,由此提取语音特征参数,并在此基础上提出了基于矢量量化的说话人识别融合模型,获得了一些初步研究结果。本文的主要工作如下: (1)首先对说话人识别技术的研究背景、基本原理以及研究现状进行阐述,针对目前研究中存在的问题进行分析。 (2)详细论述了HHT的原理,揭示其本质特征和用于信号处理的优点。初步阐明了HHT应用于语音信号分析的有效性。 (3)将HHT的核心—经验模态分解(EMD)和短时处理技术相结合,提取语音特征参数,记为 IMFCC参数;以 HHT为工具,分析语音信号的边际谱特性,在此基础上提取语音特征参数,记为IMF-BJP参数。 (4)利用IMFCC和IMF-BJP特征参数,采用矢量量化的方法进行说话人辨识实验。实验结果表明:单独的IMFCC参数作为特征的说话人识别效果并不理想;对比MFCC参数,以 IMF-BJP参数进行实验时,在短语音情况下,IMF-BJP的识别效果要更好些,而且语音时长越短,它的优势越明显,随着语音时长的增加,两种参数的识别率差距逐渐缩小。 (5)结合信息融合理论,提出了基于多数规则判决的融合系统和基于串联方式的二次判决融合系统。实验结果表明:与传统的独立 MFCC判决系统比较,在短语音情况下,基于多数规则判决的融合系统的性能最优,基于二次判决的融合系统次之,独立 MFCC判决系统最差。随着语音时长的增加,基于二次判决的融合系统的识别率提高幅度最大,它的效果最好,基于多数规则判决的融合系统的识别率趋于平稳,但仍优于独立MFCC判决系统。 本文提出的算法在短语音识别的实际应用中体现了较强的优势,这对于在尽可能少的语音数据下,实现高性能的说话人识别系统的研究具有一定的实际意义。