暴力音频场景分类技术研究与系统实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：blackhorse1983

【摘要】

：

随着近年来互联网与电影业的发展,音视频等多媒体文件急剧增多,有些音视频文件往往包含大量的暴力元素。由于音频在处理速度上比视频快得多,基于音频的暴力场景识别受到越来

【作者】

：

冯佳军

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2016年期

【关键词】

：

暴力音频场景识别深度学习受限玻尔兹曼机特征学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着近年来互联网与电影业的发展,音视频等多媒体文件急剧增多,有些音视频文件往往包含大量的暴力元素。由于音频在处理速度上比视频快得多,基于音频的暴力场景识别受到越来越多的关注。目前暴力音频检测技术主要基于机器学习算法,相比于传统的人工审查方式取得了突破性的进展,但是仍然存在着以下问题:不同的识别场景通常需要选取不同的音频特征,系统推广能力弱;传统机器学习算法都是基于浅层学习,对于音频等复杂特征的建模能力较弱,系统识别性能有待提高;大部分暴力音频识别方法在带有噪声的真实场景下识别性能明显下降。本文针对上述问题,主要做了以下几个方面的研究:(1)针对不同场景下系统推广能力弱的问题,本文将深度神经网(Deep Neural network,DNN)应用到暴力音频识别任务中。相比传统的浅层学习算法,DNN作为深度学习模型,对特征的学习与表达能力更强,在大多数场景下,可以直接使用底层特征如对数功率谱、语谱图等作为DNN的输入,不需要人工筛选特征。(2)针对系统识别性能差的问题,一方面,在特定的应用场景下,使用深度学习模型构造的特征可以作为新特征与MFCC、能量熵、过零率等特征做融合;另一方面,本文还使用离散化与特征选择技术,进一步提升特征的表达能力,同时在暴力音频的识别阶段使用K-近邻(K-Nearest Neighbo,KNN)算法对识别结果进行平滑矫正,提升系统的识别性能。(3)针对在有噪声的环境下识别性能差的问题,本文使用深度降噪自编码(Deep Denoising Autoencoder,DDAE)网络对原始音频进行降噪处理,减小训练数据与真实测试数据之间的差异性,提高了音频特征的鲁棒性。(4)为提高DNN训练速度与模型表达能力,本文还在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)基础上提出了基于自增长受限玻尔兹曼机(Incre-Restricted Boltzmann Machine,Incre-RBM)。实验表明,Incre-RBM相比于RBM,具有更快的训练速度与更强的表达能力。

其他文献

连续变量量子密钥分发误码协商算法研究

作为密码学的新兴研究方向,量子密钥分发(Quantum Key Distribution,QKD)技术理论上被证明是无条件安全的,很好地解决了一次一密加密算法中长距离密钥分发的难题。误码协商是

学位

连续变量量子密钥分发LDPCSEC误码协商多维协商

基于单点登录的数字化校园的研究与设计

随着数字化校园建设的逐步完善和发展,各种基于校园网的应用系统层出不穷。各种应用系统独立认证的弊端也逐渐突显出来,校园网络难以集中管理,用户访问不方便,安全性存在极大

学位

单点登录数字化校园AcegiCASWEB服务

煤矿安全监控数据采集无线传感器网络的设计与研究

近年来,我国煤矿安全事故频繁发生,造成了重大人员伤亡和经济损失,给许多家庭带去了沉重的伤痛。通过事故调查分析得知,绝大多数煤矿安全事故均源于矿井实时数据无法及时准确

学位

无线传感器网络数据采集分布密度模型多跳网络生命周期

三维激光扫描技术的研究

三维激光扫描技术是集光、机、电和计算机技术于一体的高新技术，该技术作为获取空间数据的有效手段，能够快速的获取反映客观事物实时、动态变化、真实形态特性的信息。三维激光

学位

基于熵和模糊集的图像边缘检测算法研究

边缘是图像中目标的灰度突变的部分，是图像的基本特征，是图像处理到图像分析阶段的关键步骤，是图像分割的重要内容，在边缘检测、模式识别和机器视觉等中有着重要的作用。　　本

学位

图像处理边缘检测Canny算子模糊集理论模糊熵图像信息融合

基于几何信息的三维人脸识别研究

经过科研人员近三十年不懈的努力,基于图像的二维人脸识别已经在一定约束条件下取得了较高的识别率。但是由于二维图像信息的局限性,二维人脸识别无法解决姿势、光照和表情问

学位

三维人脸识别综述几何信息欧氏距离测地距离人体测量学由粗到细最近迭代点

校园信息管理系统缓存模块的设计与实现

随着北京交通大学信息化建设的进行,在现有校园网的基础上,学校对面向本科生的校园管理信息系统进行改进,使其集成校园现有的各应用系统的数据,建立一个统一的平台,并在此基

学位

缓存缓存模块服务器缓存内存缓存

基于多种状态机模型的错误诊断方法研究

目前,随着人们对状态机的研究日趋深入,状态机的模型思想已应用到越来越多的领域,对于状态机模型的正确性和可靠性要求也越来越高,因此对于状态机测试显得越来越关键。现有的

学位

有限状态机通信状态机嵌入式通信状态机错误诊断算法

远程故障诊断专家系统的研究

基于现场的故障诊断专家系统的体系结构相对封闭,因此,故障诊断与维修都会受到人力、技术和地域的限制,故障诊断的时效性也受到一定的影响。在Internet网络技术飞速发展,Web

学位

数据库远程故障诊断专家系统

基于三维重建过程中纹理映射问题的研究

科学计算可视化、计算机动画和虚拟现实已经成为计算机图形学的三大热门话题,这三大话题的技术核心均为三维图形。学术界和产业界普遍认为,纹理映射是解决真实地显示现实世界

学位

真实感图形纹理映射OpenGL纹理反走样

暴力音频场景分类技术研究与系统实现

与本文相关的学术论文