基于说话人转换的语音识别的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:maxzhk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术是信息领域的标志性技术,语音识别作为人机对话的手段,近年愈发显现出其在IT产业中的重要地位。本文研究的语音识别指利用计算机识别出语音信号所表达的内容,其目的是要准确地理解语音所蕴涵的含义。说话人适应可以说是近十年来说话人鲁棒性技术研究的热点问题,己经有很多说话人自适应方法被提出并可以有效地应用于说话人自适应中。 说话人语音转换技术是语音信号处理领域中的前沿分支。它通过对一个说话人(源说话人)的语音信号进行修改,在保留其所表达的语义信息的前提下,使修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人语音转换技术对语音分析、语音合成、语音识别及说话人识别等领域都有重大的促进意义。 说话人语音转换的关键技术之一是从语音中提取可分析合成的说话人特征。本文研究了基于两种不同特征的说话人转换方法。从线性预测分析模型所体现的说话人特征着手,通过基音同步分析的方法对语音进行分析合成,研究了基于该模型的说话人语音转换技术。另外,利用正弦加噪声模型进行基于说话人音素特征的基础性研究,结合统计分析的方法,得出实验结论,在有足够语音数据进行统计分析的情况下,说话人音素频率概率和说话人有关。另外,本文提取音素频率概率分布PFPD)和幅度加权音素概率频率分布(awPFPD)作为说话人特征,并通过高斯混合模型拟合此两个特征,本文提出用统计本征音素(SEP)和幅度加权统计本征音素(awSEP)作为说话人特征,并以此为基础,提出了一种新的说话人转换方法。 为了提高转换的精细度,让说话人转换的源说话人与目标说话人的特征参数进行更好的对齐,本文利用HMM模型来切分说话人的语音样本为单音素,保证转换前后的一对特征参数描述的是同样的语义。通过提取语音的Mel倒谱系数,采用隐马尔可夫模型,实现了单音素的语音切分。 在语音识别中,说话人无关的识别系统需要大量的训练数据才能达到可接受的识别率,而说话人相关的识别系统对于说话人差异的鲁棒性比较低,而基于模型参数修改的说话人适应在识别模型参数较多时,效率较低,适应过程缓慢。 本文对基于线性预测模型和正弦加噪声模型的两种说话人转换算法进行横向比较,并将其作为一种说话人适应方法应用到语音识别中,可以有效解决以上的问题。说话人差异作为一种说话人适应方法,可以看作是一种说话人归一化的过程,也就是以对说话人差异的分析为基础,消除说话人语音与特定的参考说话人语音或者是特定的模型之间的差异,即在参数空间完成所谓的“归一化”过程。该方法在识别前对输入的新说话人语音向训练库中的已有说话人语音进行说话人转换,使识别转换后的语音接近于识别训练库中的语音,在不直接修改模型参数的基础上提高识别正确率。本文就基于说话人转换的说话人适应方法对识别结果的影响以及说话人转换的精细度、不同说话转换方法、不同说话人适应方法应用于语音识别的异同做了对比实验,在本文实验条件下,该方法在适应数据较少时(2秒到4秒)时比MLLP,MAP的识别正确率有了提高。
其他文献
本文通过对荣华二采区10
期刊
骨形成蛋白(Bone Morphogenetic Proteins,BMPs)是一种分泌型糖蛋白,具有多种生物学功能。BMP2和BMP4是骨形成蛋白家族中的两个重要成员,在结构和功能上这两种蛋白都非常相似,两
本文通过对荣华二采区10
期刊