论文部分内容阅读
语音识别基本任务就是将语音转化为相应的命令或者文本,这项技术具有非常广泛的应用前景,同时作为一个交叉学科也有很重要的研究价值。在语音识别系统中,语音信号特征参数的提取是其中关键的一项技术,语音特征参数的选用对语音识别系统有着重大的影响,尤其是在非特定人的语音识别系统中,语音特征参数是否合适,是否能代表语音信号的特征并尽可能的去除人与人之间语调、语速、音量上的差异,对语音识别系统的运行效率和识别率都有着决定性的作用。本文对语音识别技术和语音特征参数的提取进行了研究。现有的典型的语音系统分为语音信号预处理、端点检测、特征提取、模式匹配和后处理几个环节,而在特征提取阶段,目前主要采用特征参数的是由基于声学模型的线性预测倒谱(LPCC)系数和基于听觉模型的Mel频率倒谱(MFCC)参数。本文通过对人耳听觉现象的观察,发觉语音信号在加速到一定速率内播放时依然能被人耳所轻易识别,而加速后的语音在波形和频谱上表现的更为简单,根据这种现象,本文就针对加速后的语音信号进行特征参数提取实验,并对提取到的语音特征参数进行实际的语音识别效果分析。本论文首先介绍了语音识别技术的概况和语音识别的应用及国内外研究现状,然后对语音识别的原理做了介绍,对语音信号的预加重、分帧加窗、端点检测都做了详细分析。由于本文要对语音识别中的特征参数提取方法做改进,接下来又对语音特征参数的提取做了深入的探讨,提出了对加速后语音信号进行特征提取的方案。然后又运用微软的DirectShow技术和VS2010集成开发环境设计了语音信号的加速变频工具,为后续的实验提供合适的原始语音信号,语音信号都保存为符合RIFF规范的wav文件格式,便于在windows环境下处理。在此之后,本文在Matlab环境下,运用DTW匹配算法做了孤立词语音识别仿真实验,对正常速度下的语音识别效果和加速变频后的语音识别效果分别做了实验分析,得出了实验结论。最后,本文对本次研究做了总结,对以后的研究做出了展望。