论文部分内容阅读
当今社会已进入人工智能的时代,语音识别技术已经相当成熟。而对于实际生活中的复杂声音,由于其声源的复杂性和多样性,加之背景噪声的干扰,目前对于这一领域的识别研究还远远不够成熟,仍然存在许多问题和缺陷。因此对噪声环境下复杂声音的识别研究具有非常重大的实践价值和理论价值。复杂声音是指这样一类包含多种声音类型且这些声音之间的边界难以区分的声音信号。目前对于这类声音的检测方法主要沿用传统的语音识别技术,语音信号发音方式较为固定且能量平稳,而复杂声音种类繁多,发音原理各不相同,瞬间能量也较大,而且还会被环境噪音所干扰,因此仅仅采用传统的语音识别技术不能够较好地应用于复杂声音的识别。针对噪声环境下这一类声音识别准确率低的问题,本文主要进行了如下研究工作:(1)首先主要介绍了声音识别中常用的几种时频域特征,通过提取和分析复杂声音样本的特征参数,提出了由时频域特征组合的方式来共同描述复杂声音,并进行了多种混合特征的对比实验。(2)在对噪声环境下的复杂声音识别方法研究过程中,针对人工选择训练样本的困难,提出了一种基于聚类标注的训练样本选择算法,能够更加快速精准地选择出训练样本代表集,并进行了不同聚类方法的对比实验。(3)最后提出了基于隐马尔可夫模型(Hidden Markov Mode1,HMM)的复杂声音识别框架,并进行了训练和识别。通过对列车声音以及鸟叫声两种不同类型的复杂声音进行仿真实验,结果表明,利用时域特征短时自相关函数以及频域特征梅尔频率倒谱系数组合的混合特征参数表示复杂声音特征,使用本文提出的基于近邻传播聚类标注的训练样本选择算法,以及通过HMM模型识别框架进行建模,可以显著提高噪声环境下复杂声音的识别准确率和效率。