基于小波包分析和支持向量机的说话人识别

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yangyupengmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,得到人们越来越多的研究。本文从语音信号的预处理开始分析,采用短时能频值端点检测算法对语音信号进行了端点检测,滤除语音信号的无声段。重点比较了该算法与双门限语音端点检测方法的性能,实验证实短时能频值端点检测算法能很好的区分语音端点。说话人识别系统中,最重要的是能够从语音片断中提取代表说话人独有特征的稳定参数。针对短时傅立叶分析在提取说话人特征参数时的缺陷,本文从听觉感知特性出发,研究了两种说话人识别特征,首先研究了基于小波包分析代替傅立叶变换的一种新的特征参数;然后给出了衡量各种特征参数识别能力的F比准则,利用F比准则构造出另一种新的混合特征参数。分类器设计部分重点研究了支持向量机,构建了支持向量机分类器。支持向量机算法是基于结构风险最小化原则的,采用一个非线性核函数来表示特征空间的内积,在小样本情况下具有很大的优势,有较好的泛化推广能力。通过特征提取阶段,提取出新的特征参数,将其生成基于SVM的特征向量序列,最后使用支持向量机分类器,基于样本进行训练和测试,实现说话人的分类识别。在自己建立实验语音库的基础上,通过采用不同时间段语音、不同信噪比和不同SVM核函数,用本文所构造的两种新的特征参数与MFCC参数进行了对比实验,结果表明了本文所提出的两种新特征参数有更好的鲁棒性,能够在各种环境下有效地提高说话人识别系统的识别性能。
其他文献
随着网络技术的迅猛发展和全球信息化的加深,多媒体实时通信已成为网络通信中的一个非常重要的业务,这些业务主要包括视频点播、可视电话、会议电视、远程教育、流媒体等,而
高亮度大功率型A1GaInP红光LED是近年来发展的新型可见光LED。红光LED作为三基色的一种和蓝绿光LED组合在一起,变幻着五光十色。A1GaInP四元红光LED具有电流承受力强、发光效
随着公共安全意识的逐渐提高,视频监控技术得到了广泛应用,其中以人群为目标的监控视频异常检测一直是研究的难点。机器学习方法逐渐被应用到监控视频的异常检测系统中,提高
学位
协作通信技术,是一种使得仅有单天线的移动终端也可以实现空间分集的新技术。它通过系统中各个用户帮助其伙伴用户传输信息,共享彼此的天线和空间信道资源,构成虚拟MIMO系统,
立体视觉是一门交叉学科,虽然已经有了20多年的研究历史,但是无论在视觉生理的角度,还是在实际应用方面来看,仍然处在十分不成熟的阶段。本文主要对立体匹配算法和基于立体匹配的
空时编码技术应用于多输入多输出(MIMO)无线通信系统之中,主要考虑如何将调制后的符号在空间维和时间维上进行分配传输。它可以提高整个通信系统的吞吐量,或者可以提升系统的误
智能视频监控技术是利用计算机视觉技术对视频信号进行处理、分析和理解,并对视频监控系统进行控制,从而使视频监控系统具有像人一样的智能。运动目标的检测与跟踪技术是实现