论文部分内容阅读
随着语音识别技术越来越广泛的应用,语音识别技术也受到越来越多的重视。语音识别技术在50年来取得了很大进展,识别的正确率得到了很大的提高,使得语音识别技术在教育、电子商务、电话语音拨号、各种语音门户、语音玩具等领域的应用越来越广泛,并逐渐覆盖各个应用领域。语音端点检测技术是利用数字处理技术检测出语音信号中的各种段落的起始点和终点位置,其目的就是在复杂的带噪声环境下的声音信号中分辨出语音信号和非语音信号,它是语音识别中最关键的技术之一,其性能的优劣将直接影响到语音识别系统的正确率。传统的基于音频的语音识别技术是单一地关注声音信号的研究,这种只将音频信号作为研究对象的的最大缺点就是系统的噪声鲁棒性差,特别是在强噪声环境下,这些语音系统的识别率会显著地降低,使得语音识别的应用受到很大的限制。同时,人类的语音过程不仅仅是声音信号的产生,它还伴随着与之相关的发声器官的视觉体现,其中又以唇形的变化最为重要。由于语音信号的这种特殊性,语音的音频信号和视觉信号之间必然存在内在的联系,语音信号的声学特征和视觉特征具有很好互补性和冗余性。因此将和语音信号相伴的语音视觉信息引入到语音端点检测将有助于语音识别率的提高,这也正是本文最大的贡献。第一章是绪论部分,介绍了语音端点检测的概念、基于音频的传统语音端点检测的弊病以及引入语音视觉特征的意义。第二章阐述了基于听觉特征的语音端点检测的过程以及语音端点检测的常用技术,并给出了一种时频和频域方差的语音端点检测算法,它能检测出语音端点的4种状态:无语音状态、过渡状态、语音状态和结束状态,并给出了这4种状态之间的转换关系。第三章介绍了引入语音视觉特征原因,并对人脸检测的算法作了一个概要性的描述,给出了现在常用的几种方法:特征组分析法、ASM法以及线性子空间法。考虑了2个对视觉信息有影响的主要的因素:光线和人的头部的运动,并给出了相应的解决办法。给出了嘴唇定位和提取的过程:ROI定位、PCA、LDA提取,通过这些方法我们能从图像中检测到人脸,并定位到我们最需要的嘴唇信息。最后介绍了一种将前面的特征法和线性子空间法结合在一起的分段人脸特征检测算法——分和法,并给出了详细的描述。第四章提出了基于视觉特征的3种语音端点检测技术:基于图像的比较方法(将图片中的嘴唇部分提取出来和无语音状态下的嘴唇图像进行比较,如果该图像和无语音状态的图像之间的不同像素点数在一个门限值以上,则认为这2幅图片不一样,即说明该图像是处于语音状态)、基于FAP的方法(检测出嘴唇的FAP点,判断这些点与MPEG-4中定义的FAP Silence点是否相同,若相同,则表示是非语音状态,否则表示为语音状态和FAP点距离的判断进行判断是否处于语音状态)以及基于唇动函数的方法(给出一个内外嘴唇函数,通过这个函数描述,判断嘴唇是否处于运动状态,若是则为语音状态,否则为无语音状态),并给出了这些方法的具体实现。第五提出了基于音频和视频融合的端点检测技术,讨论了基于音频和视频在不同噪声状态下各种技术的适用情况:当语音信号很强时,则以音频识别为主,辅助视觉检测;当噪声很强时,以视觉识别为主,辅助音频检测;当2者相差不多时,同时结合2者进行识别;详细讨论了各种可能出现的状态下的语音端点检测。做了以上分组实验,给出了具体的实验结果,实验表明基于音频和视频的联合语音端点检测技术有助于语音识别率的提高。第六章是全文的总结,给出了基于音频和视频的语音端点检测技术存在和问题和今后研究方向的探讨。