论文部分内容阅读
随着近年来互联网与电影业的发展,音视频等多媒体文件急剧增多,有些音视频文件往往包含大量的暴力元素。由于音频在处理速度上比视频快得多,基于音频的暴力场景识别受到越来越多的关注。目前暴力音频检测技术主要基于机器学习算法,相比于传统的人工审查方式取得了突破性的进展,但是仍然存在着以下问题:不同的识别场景通常需要选取不同的音频特征,系统推广能力弱;传统机器学习算法都是基于浅层学习,对于音频等复杂特征的建模能力较弱,系统识别性能有待提高;大部分暴力音频识别方法在带有噪声的真实场景下识别性能明显下降。本文针对上述问题,主要做了以下几个方面的研究:(1)针对不同场景下系统推广能力弱的问题,本文将深度神经网(Deep Neural network,DNN)应用到暴力音频识别任务中。相比传统的浅层学习算法,DNN作为深度学习模型,对特征的学习与表达能力更强,在大多数场景下,可以直接使用底层特征如对数功率谱、语谱图等作为DNN的输入,不需要人工筛选特征。(2)针对系统识别性能差的问题,一方面,在特定的应用场景下,使用深度学习模型构造的特征可以作为新特征与MFCC、能量熵、过零率等特征做融合;另一方面,本文还使用离散化与特征选择技术,进一步提升特征的表达能力,同时在暴力音频的识别阶段使用K-近邻(K-Nearest Neighbo,KNN)算法对识别结果进行平滑矫正,提升系统的识别性能。(3)针对在有噪声的环境下识别性能差的问题,本文使用深度降噪自编码(Deep Denoising Autoencoder,DDAE)网络对原始音频进行降噪处理,减小训练数据与真实测试数据之间的差异性,提高了音频特征的鲁棒性。(4)为提高DNN训练速度与模型表达能力,本文还在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)基础上提出了基于自增长受限玻尔兹曼机(Incre-Restricted Boltzmann Machine,Incre-RBM)。实验表明,Incre-RBM相比于RBM,具有更快的训练速度与更强的表达能力。