论文部分内容阅读
近年来,语音识别系统开始被广泛地推广应用到手机等智能移动设备中,语音活动检测作为语音处理中的重要前端部分,可以在数字音频信号流中检测到语音部分。基于检测结果,抛弃非语音部分,仅将起止点准确的语音区间输入下一级处理,将有效地提升系统性能指标和降低整体资源开销。尤其在移动终端设备的应用中,算法应尽可能优化复杂度,同时兼顾低功耗、实时性强和检测精度可靠的应用需求。本文首先分析语音信号特征和分帧、预加重、语音增强三项的预处理步骤解决方案,成为提取语音特征并检测其语音活动性的基础;接着研究了多种经典特征和新兴特征的提取和参数优化,并结合基于门限比较法的平滑判决策略,设计了一套低功耗的语音活动检测解决方案,实验发现在高信噪比(≥10dB)的应用场景下具有实用意义。为了进一步提高抗噪声能力,本文继而提出了基于高斯混合模型的多特征混合改进算法,有效地处理了手机应用常见噪声的中低信噪比情况。本算法基于MFCC特征和高斯混合模型建模,并通过创新的多特征组合方式,将时域特征和频域特征相结合、短时平稳性和局部变化规律相结合,提高检测准确率。本文所设计的算法,与其他语音活动检测算法相比,尤其在环境中含有嘈杂语噪声时(如:办公室环境)性能较优。论文最后以所研究的算法为基础,在Android智能手机上设计实现了实例应用,开发了可供多平台多系统扩展复用的语音活动检测功能模块,并验证了本文提出的解决方案可以满足实际应用需求,具有较高的准确率、适应性和实用意义。