暴力音频场景分类技术研究与系统实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:blackhorse1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来互联网与电影业的发展,音视频等多媒体文件急剧增多,有些音视频文件往往包含大量的暴力元素。由于音频在处理速度上比视频快得多,基于音频的暴力场景识别受到越来越多的关注。目前暴力音频检测技术主要基于机器学习算法,相比于传统的人工审查方式取得了突破性的进展,但是仍然存在着以下问题:不同的识别场景通常需要选取不同的音频特征,系统推广能力弱;传统机器学习算法都是基于浅层学习,对于音频等复杂特征的建模能力较弱,系统识别性能有待提高;大部分暴力音频识别方法在带有噪声的真实场景下识别性能明显下降。本文针对上述问题,主要做了以下几个方面的研究:(1)针对不同场景下系统推广能力弱的问题,本文将深度神经网(Deep Neural network,DNN)应用到暴力音频识别任务中。相比传统的浅层学习算法,DNN作为深度学习模型,对特征的学习与表达能力更强,在大多数场景下,可以直接使用底层特征如对数功率谱、语谱图等作为DNN的输入,不需要人工筛选特征。(2)针对系统识别性能差的问题,一方面,在特定的应用场景下,使用深度学习模型构造的特征可以作为新特征与MFCC、能量熵、过零率等特征做融合;另一方面,本文还使用离散化与特征选择技术,进一步提升特征的表达能力,同时在暴力音频的识别阶段使用K-近邻(K-Nearest Neighbo,KNN)算法对识别结果进行平滑矫正,提升系统的识别性能。(3)针对在有噪声的环境下识别性能差的问题,本文使用深度降噪自编码(Deep Denoising Autoencoder,DDAE)网络对原始音频进行降噪处理,减小训练数据与真实测试数据之间的差异性,提高了音频特征的鲁棒性。(4)为提高DNN训练速度与模型表达能力,本文还在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)基础上提出了基于自增长受限玻尔兹曼机(Incre-Restricted Boltzmann Machine,Incre-RBM)。实验表明,Incre-RBM相比于RBM,具有更快的训练速度与更强的表达能力。
其他文献
作为密码学的新兴研究方向,量子密钥分发(Quantum Key Distribution,QKD)技术理论上被证明是无条件安全的,很好地解决了一次一密加密算法中长距离密钥分发的难题。误码协商是
随着数字化校园建设的逐步完善和发展,各种基于校园网的应用系统层出不穷。各种应用系统独立认证的弊端也逐渐突显出来,校园网络难以集中管理,用户访问不方便,安全性存在极大
近年来,我国煤矿安全事故频繁发生,造成了重大人员伤亡和经济损失,给许多家庭带去了沉重的伤痛。通过事故调查分析得知,绝大多数煤矿安全事故均源于矿井实时数据无法及时准确
三维激光扫描技术是集光、机、电和计算机技术于一体的高新技术,该技术作为获取空间数据的有效手段,能够快速的获取反映客观事物实时、动态变化、真实形态特性的信息。三维激光
学位
边缘是图像中目标的灰度突变的部分,是图像的基本特征,是图像处理到图像分析阶段的关键步骤,是图像分割的重要内容,在边缘检测、模式识别和机器视觉等中有着重要的作用。   本
经过科研人员近三十年不懈的努力,基于图像的二维人脸识别已经在一定约束条件下取得了较高的识别率。但是由于二维图像信息的局限性,二维人脸识别无法解决姿势、光照和表情问
随着北京交通大学信息化建设的进行,在现有校园网的基础上,学校对面向本科生的校园管理信息系统进行改进,使其集成校园现有的各应用系统的数据,建立一个统一的平台,并在此基
目前,随着人们对状态机的研究日趋深入,状态机的模型思想已应用到越来越多的领域,对于状态机模型的正确性和可靠性要求也越来越高,因此对于状态机测试显得越来越关键。现有的
基于现场的故障诊断专家系统的体系结构相对封闭,因此,故障诊断与维修都会受到人力、技术和地域的限制,故障诊断的时效性也受到一定的影响。在Internet网络技术飞速发展,Web
科学计算可视化、计算机动画和虚拟现实已经成为计算机图形学的三大热门话题,这三大话题的技术核心均为三维图形。学术界和产业界普遍认为,纹理映射是解决真实地显示现实世界