论文部分内容阅读
音频信息作为人们对外界环境感知的一种重要手段,在视线遮挡、光照条件差及隐私场合等情况下可以对视觉信息起到辅助作用,且具有视觉信息无法替代的作用。随着多媒体信息的快速发展和音频信息量的急速增长,人们对音频信息管理和应用的需求越来越大,音频信息的研究得到越来越广泛的关注。音频信息具有广泛的应用前景,例如音频情感感知,智能家居工程以及基于音频信息的场景识别等。音频事件分类和音频场景识别是音频分类领域的两个重要研究方向,近年来得到研究者们的广泛关注。本论文基于稀疏表示技术和主题模型技术对音频事件分类及音频场景识别展开研究,主要研究工作包括:(1)本文提出了一种基于堆叠基稀疏表示的音频事件分类方法。该方法通过K-SVD算法为每一类音频事件分别训练创建音频字典,在得到每一类音频事件的基函数以后,通过将各类的基函数进行堆叠得到一个大型的音频字典,最后基于新创建的大型音频字典提取音频信号的稀疏表示特征。在分类阶段,本文提出通过计算样本在各类音频事件上的权重值,然后根据权重值的大小进行判别的分类策略。在进行语音-音乐二类分类实验时,本文提出的分类方法的分类正确率高达100%。在TIMIT数据库上进行说话人识别实验时,其分类准确率高达95%,比英国萨里大学Syed Zubair提出的最大值池化稀疏方法提高了13%。(2)本文提出了一种基于音频事件和主题模型的音频场景识别方法。与传统的基于文档-字共现矩阵(document-word co-occurrence matrix)进行主题分析的方法不同,本文提出的算法通过创建音频文档-音频事件共现矩阵进行主题分析,算法的创新性体现在:1)与传统的基于文档-字共现矩阵进行主题分析的方法相比,本文基于音频文档-音频事件共现矩阵进行主题分析能更好地提取音频文档的主题分布,更好地表达音频文档,进而获得更好的识别效果;2)提出了一种简单的音频文档-音频事件共现矩阵的统计方法;3)提出了一种对音频文档的事件分布进行加权的方法,这种加权方法可以突出反映音频文档独特主题的重要音频事件,并且可以抑制许多主题共有的音频事件。在AASP数据库和DEMAND数据库上的实验表明,在识别性能上,本文提出的基于音频文档-音频事件共现矩阵的音频场景识别方法优于传统的基于音频文档-音频字共现矩阵的音频场景识别方法。