说话人识别研究及实现

被引量 : 0次 | 上传用户:ghmyjp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是指根据包含在语音中的同说话人有关的信息来识别说话人,随着信息技术和通信技术的迅速发展,说话人识别技术越来越受到重视。目前国内外绝大部分说话人识别系统都是基于计算机来进行的,本文在重点研究说话人识别系统中的特征参数提取、识别方法等关键技术的基础上,在凌阳16位单片机SPCE061A上实现了一套具有实用意义的说话人确认系统,在进一步完善的情况下,可将其应用于语音门锁、语音考勤、医用语音控制等。本文的主要工作包括以下几点。(1)研究了基音周期的求取方法,并根据系统的实时要求,将逐点搜索基音周期的方法简化为粗细法,即在基音周期范围内隔点搜索相关函数最大峰值点,然后在此时得到的最大峰值点附近继续搜索,将最后得到的峰值点作为基音周期值。(2)分析研究了线性预测倒谱(LPCC)、美尔倒谱(MFCC)等特征参数,并分别在计算机和SPCE061A平台比较了LPCC和MFCC参数的识别效果,实验表明在SPCE061A平台采用LPCC参数比采用MFCC参数有更好的识别效果。(3)详细研究了动态时间规整(Dynamic Time Warping, DTW)方法。根据SPCE061A的存储资源限制,将全段DTW匹配简化为分段DTW匹配,从而减少了对搜索路径的存储开销;另外在匹配过程中采用早期终止策略,即在匹配过程中,一旦部分累积失真距离超过判决阈值,立即终止匹配,拒绝该说话人,从而减少了计算量。(4)针对说话人发音习惯的缓变性,提出了模板在线更新策略,把通常使用的“先训练再识别”的更新模式,优化为在“先训练”条件下的“边训练边识别”的更新模式,从而使得说话人确认系统可适应说话人本体的特征缓变,具有较强的适应性。(5)在凌阳16位单片机SPCE061A上用汇编语言编程,实现了一套具有实用意义的说话人确认系统,可进行性能演示,效果良好。目前说话人识别技术在实用中遇到的最大问题在于系统的噪声的稳健性。如何在噪声环境发生变化的情况下保持系统性能不下降,将需要进一步的研究和实践。随着相关学科的发展,一些更实用、更高性能的说话人识别系统,必将出现并广泛应用在人们的现实生活中。
其他文献
本文以开滦煤矿、石景山钢铁厂、北支株式会社等为重点,辅以其他工矿企业,对抗战胜利后国民政府对河北平津区工矿企业的接收情况作了详细论述。另外,本文还结合国民政府的接
目的观察复方玄驹胶囊对改善子宫内膜薄型不孕症患者内膜容受性的效果。方法选取55例既往促排卵周期中反复内膜较薄的不孕症患者,克罗米芬促排卵,其中30例用戊酸雌二醇改善内
心肌梗塞(MI)死亡率迄今仍然居高不下,心肌梗塞后的左室重构对心功能有重要影响。梗塞心肌发生修复性纤维化,坏死细胞逐渐吸收,最终由疤痕组织所取代。心脏左室重构包括梗塞面积扩
运用SWOT分析法,对高校开展龙狮运动的情况进行分析。结果显示:高校开展龙狮运动具有培养大学生身心健康,树立正确人生观和价值观,符合校园文化建设等优势;动作难度大,学生参
目的一般认为长寿的机理是多种因素、综合作用的结果,不是单一因素所决定的。人类的长寿现象更多的是一个体与外界的生存环境相适应的结果。在与长寿有关的因素中,遗传因素无
1990年以后,中国的经济经历了几个不同发展时期。从1992年开始,通货膨胀日益严重,消费价格指数在1993年的时候达到有史以来的最高点24.1%,1992~1997年GDP平均增长率达11.91%。
在刑法学中,犯罪构成或犯罪成立理论历来是研究的重点。在我国的犯罪构成理论中,犯罪客体又是争论的焦点。对犯罪客体进行深入的解释分析,并予以合理定位,进而发掘其价值,探
当今时代,以信息技术和现代教育心理学理论为依托的现代教育技术己越来越受到人们的重视。现代教育技术与学科课程整合已成为教育改革的突破口。国家教育部在2001年6月7日颁布
本文的研究对象是新时期中国发展对外直接投资的意义和战略及相关问题。从定义上而言,对外直接投资(Foreign Direct Investment)通常是指投资者通过生产要素的投入,在本国以