说话人识别系统的研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:dengzk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特征的语音参数,自动鉴别说话人身份的一项技术。说话人识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。因此,研究一种识别率高、鲁棒性强的说话人识别方法是国内外众多研究者努力的目标。本文通过分析说话人识别基本原理与系统结构,考察现有的说话人识别技术,研究采用线性预测倒谱系数和美尔倒谱系数为特征参数,运用矢量量化的说话人识别方法,建立说话人识别系统。为了有效地提高系统的识别效果,具体工作总结如下:首先研究了语音端点检测算法,介绍了常用的短时能量、短时平均过零率、基于小波变换后的分形理论和基于频带方差的端点检测方法,相关实验仿真均反映其各自算法特点。并在分析以上算法存在不足的情况下,提出了改进算法即子带频带方差和功率谱熵的端点检测算法,实验仿真结果证明了其优越性。接着研究了特征提取算法,主要研究了几种常见的语音特征参数(LPC、LPCC、MFCC),并对MFCC和LPCC进行了一定的理论推导,并提出了一种新的特征参数—基于最小方差无失真响应的感知倒谱系数PMCC。然后研究了说话人识别方法,简单介绍了各类常用的说话人识别方法,动态时间规正(DTW)方法,矢量量化(VQ)方法,隐马尔可夫模型(HMM)方法,高斯混合模型(GMM)方法,人工神经网络(ANN)方法、支持向量机模型(SVM)方法。着重详细地介绍了矢量量化(VQ)方法的基本原理及其应用,同时提出了改进的矢量量化(VQ)方法,并作为本系统识别方法。最后研究了系统的实现过程,提取的线性预测系数语音特征参数(LPCC)和美尔倒谱系数语音特征参数(MFCC),首先对LPCC和MFCC运用矢量量化(VQ)方法在不同码本容量,不同时长进行说话人识别实验,然后对LPCC和MFCC运用改进的矢量量化(VQ)方法在不同时长进行说话人识别实验,并比较、分析其识别实验结果,得出最佳识别方法—基于标准差的WDMVQ算法作为系统的识别方法。
其他文献
污水处理智能控制主要针对序批式活性污泥法(SBR)而设计,在保证出水水质的前提下尽可能地节省运行费用,同时实现工艺过程的优化控制,从而提高污水处理运行的效率。污水处理的动
随着社会经济的高速发展,大空间内火灾频繁发生,给人类生命安全及财产造成了极大的威胁,但传统火灾探测器存在受空间高度、粉尘等影响因素,并不能够发挥有效作用。但随着计算
人脸检测是模式识别与计算机视觉研究领域比较基础和重要的研究课题,在基于内容的图像与视频检索、视频监控、自动人脸识别以及智能人机交互等领域有着重要的应用价值。人脸检
交流伺服驱动器(又称“伺服系统”)是数控系统中的核心部件。驱动器技术已由最初的模拟量、脉冲序列,发展到最近的全数字。数字式驱动器以其能提供更高的控制精度、达到更快的响应速度,还能够实现更复杂的控制算法,提供参数调整能力和系统的诊断等优势成为今后发展的趋势。本文设计了一款基于工业以太网EPA(Ethernet for Plant Automation)标准的全数字交流伺服驱动器,并从以下几个方面进行
学位
减少交通事故,保证行车安全是交通工程人员一直探讨研究的重要问题。导致交通事故的原因是多方面的,其中,天气因素是造成交通事故的重要原因之一,尤其是在雾、雨、雪、沙尘等
本文重点研究了变间隙式传感器的结构设计和制备工艺、信号测试系统及处理电路的设计以及厚膜电容传感器在位移检测过程中的非线性问题。 结合PZT驱动的微纳操作平台总体
随着国民经济的发展,物流业越来越受到人们的重视。在大力发展物流业的同时,人们面临着一个共同的难题是配送中心如何进行合理的选址。在物流网络中配送中心连接着供货点和需求
在现代医学影像学中,超声成像、CT和磁共振都是重要的医学成像方式。由于CT和MRI的数据是直接在三维笛卡尔坐标系当中获得的,因此能相对容易的进行体渲染。并且由于CT和MRI的
本论文以早期森林火灾的监测为背景,应用数字图像处理技术和人工神经网络识别技术对早期森林火灾监测识别进行了研究,为将来森林火灾智能化监测提供了理论基础和技术支持。本