说话人识别方法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:freshgrandpa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话人生理和行为特征语音参数,自动鉴别说话人身份的一种技术。与其它生物识别技术相比,说话人识别具有更为简便,经济及可扩展性良好等众多优势,可广泛应用于电话银行,数据库访问,计算机远程登录,安全验证,控制等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中。人的声道响应是反映说话人个性特征的重要的物理量。而语音信号中声道响应是和声门激励信息卷积在一起的。为了从语音信号中得到声道响应就必须对语音信号实现解卷积。本文介绍了对语音信号实现解卷积求取倒谱系数的两种方法:线性预测分析和同态分析处理。通过对语音信号进行解卷积,从而获得与声道响应有关的倒谱系数,组成特征向量。说话人识别中有许多先进有效的识别技术,其中高斯混合模型(GMM)由于性能较好、复杂度小、方法简单,是目前最好的说话人识别算法之一。本文介绍了GMM模型的概念、模型参数的估计以及GMM的识别算法,并通过实验研究分析了GMM模型的阶数对识别性能的影响。本文阐述了小波分析理论应用于语音增强的原理,并将基于自适应阈值小波去噪算法应用于说话人识别系统的预处理。实验结果表明,这种方法具有语音增强效果,应用于噪声环境下的说话人识别系统时,能够提高系统的鲁棒性。通过分析当今说话人识别系统中常用的一些特征参数,以提高说话人识别的识别率为目的,研究了将Mel频率倒谱(MFCC)、线性预测倒谱(LPCC)及它们的一阶差分和基音周期等多种特征有效结合进行说话人识别的方法。采用自相关法提取基音周期。经过实验证明,使用多特征有效结合比使用单个特征效果要好,能在一定程度上提高系统区分说话人的能力。
其他文献
20世纪90年代以来,随着计算机和网络技术的发展,各种多媒体信息在网络中方便、快捷地传输,极大地方便了人们的通信和交流。这些新技术在给人们带来方便的同时也暴露出严重的
多输入多输出(MIMO)技术能极大增加系统容量与改善无线链路的质量,因而成为无线移动通信领域内最“炙手可热”的技术之一。这两个优点分别体现在MIMO技术的两个应用中:前者通
随着电子技术的发展和社会需求的扩展,嵌入式系统对处理器的性能和功能提出了更高的要求。ARM公司的32位RISC处理器,以其高速度、低功耗、强功能、特有16/32位双指令集等诸多优
随着互联网技术和多媒体技术的迅速发展,多媒体应用得到了极大普及,它们不仅融入到人们生活的方方面面,甚至还改变了人们的生活方式。为了满足人们日益增长的需求和提高软件
随着人们生活水平的提高,PC机、智能手机、数字电视等数字产品越来越多地进入了家庭生活中,但由于这些设备之间无法方便地进行互联和信息共享,导致了使用上的繁琐,而且也占用