基于统计模型的说话人识别研究与实现

被引量 : 0次 | 上传用户:beibeigou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别属于语音信号处理中的一种,它主要是通过挖掘语音信号中反映说话人生理和行为等个性特征的语音参数来识别说话人的身份。说话人识别中的关键技术问题就是特征参数的提取和模型的建立。本文主要从以上两个方面来进行与文本无关的说话人识别研究。随着多媒体数据的爆炸式增长,使得对音乐数据库中的数据进行有效的管理显得越来越重要。近年来利用语音信号处理技术并结合音乐数据本身的特点来分析和处理音乐数据的研究已成为一个非常有价值的热门课题。本文将说话人识别中的相关技术应用到音乐信号处理中。通过广泛地研究近年来说话人识别中常用的特征参数和建模方法,本文在处理语音数据时,主要提取基于Mel频率的倒谱系数(MFCC)作为语音的特征参数,高斯混合模型(GMM)作为语音描述的模型。并在MFCC特征参数的基础上提出能提高系统性能的CMFCC特征参数:将MFCC参数进行去均值处理后得到的特征参数。在研究说话人识别的基础上,提出能有效分离音乐数据中歌唱部分声音(pvoc)和伴奏部分声音(svoc)的线性组合模型(LGMM):首先对手工标注的pvoc和svoc数据建立一个GMM模型,然后用纯歌唱部分数据和纯伴奏部分数据分别建立相应的另一个GMM模型,最后将各类数据的GMM模型进行线性组合得最终的概率模型。本文主要工作如下:1、在无噪声环境下,分别用MFCC、CMFCC特征参数、GMM模型以及广义高斯混合模型(UBM-GMM)建立与文本无关的说话人识别系统。2、将MFCC特征参数和GMM模型应用到音乐中歌唱部分数据(pvoc)和伴奏部分数据(svoc)的分离中,给出LGMM模型建立的具体方法和过程,并将其应用到音乐中pvoc和svoc数据分离的实验中。3、根据LGMM方法,首先分离出音乐中的歌唱部分数据(pvoc)和伴奏部分数据(svoc),利用pvoc数据和svoc数据建立基于MFCC特征参数和GMM模型的歌唱家识别系统。4、通过实验分析训练数据长度、GMM模型中高斯分量个数对系统性能的影响,并比较了MFCC和CMFCC参数以及GMM,UBM-GMM,LGMM模型建立的系统性能。实验结果证实了CMFCC特征参数和UBM-GMM,LGMM模型能有效提高系统识别率。本文通过大量的实验表明,MFCC参数和GMM模型能有效地用于说话人识别,音乐信号处理中,实验结果还证实了本文提出的CMFCC特征参数和LGMM模型能有效地提高系统性能。
其他文献
本文所关注的是文化传播的问题。本文所希望解答的中心问题是作为一种文化产物的“传统文化”是如何被形塑和中介的。围绕这一中心,本文从文化的生产与接受过程中寻找答案。
FPGA是英文全称Field Programmable Gate Array,即现场可编程门阵列。随着FPGA设计技术和工艺技术的提高, FPGA与ASIC之间的性能差异越来越小。相比较ASIC而言,FPGA的动态可
国际贸易与气候变化的关系是当前国际政治经济领域研究的热点问题。本文从以下三个方面对现有的有关研究文献进行了述评:1.贸易和贸易自由化对温室气体排放的影响,如:贸易活
进入新世纪,中国区域经济发展的基本格局是将加快北移西进,建设黄河经济带是中国国民经济建设重点北移西进的必然趋势。本文认为,经济带的形成是一个复杂的过程,具有标度不变
我国幅员辽阔,是一个多民族国家。56个民族融合在一起是我国特有的形势,各民族共同发展,共同繁荣是我国的治国原则。现代社会飞速发展,而我国各民族发展状况参差不齐,多个少
随着核电业的快速发展,核电站对水下机器人的使用要求不断提高,并逐渐催生出一种水下爬行与潜浮双功能机器人,在此基础上提出一种水下爬行与潜浮机器人通用的机械手设计方案,
研究目的:描述浏阳农村地区居民的慢性病患病情况,研究成年慢性病患者两周内就医行为及其影响因素。研究方法:2007年1月至2008年5月对浏阳市镇头镇、三口乡和杨花乡符合条件的
语音信号处理是一门内涵丰富、应用广泛的学科,其实用性使得人们对它有着迫切的应用需求。虽然语音信号处理技术已经取得巨大的成就,形成了谱分析、小波分析、矢量量化、动态
我国的土地资源稀缺,城市人口密集,近年来随着城市化和工业化进程的不断推进,城市公共交通通行能力较差等一系列问题日益凸显,严重制约了城市发展。作为与人民群众生产生活息
随着社会主义市场经济体制的逐步完善,人们在物质生活水平快速提高的同时开始注意提高生活质量的问题,政府不断向基单位增加任务和职能,社会承担起更多的职能。社区作为一种