基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：zhanranran

【摘要】

：

随着网络视频的普及与流行,互联网上存在着各类视频。近些年,计算机视觉越来越得到关注,通过分析计算机中的二进制数据,可以区分每个视频的所属类别。传统的基于内容的视频分

【作者】

：

李荣杰

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2010年期

【关键词】

：

视频分类词袋模型过滤筛选支持向量机 MPEG-7音频特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络视频的普及与流行,互联网上存在着各类视频。近些年,计算机视觉越来越得到关注,通过分析计算机中的二进制数据,可以区分每个视频的所属类别。传统的基于内容的视频分类技术主要分为视频和音频特征提取两部分,视频特征主要提取图像的全局特征如颜色、纹理、形状等,并比较这些视觉特征间的相似性,从而自动搜索出符合用户要求的图像。而音频特征主要提取音频流的音频特征,如基音频率带宽、频谱流量、Mel倒谱系数、声音功率等。这些视频和音频特征通过分类器训练学习后,能够对视频类别有较为准确的识别。另一方面,由于网络上充斥着各类不健康的视频,尤其是其中的一些恐怖和暴力视频对于儿童的发展是有比较大的危害,需要对这些视频进行标注和监管。近年来,对于网络视频的监管需求越来越高。针对以上需求,本文提出两种针对暴力视频的分类方法。本文介绍了一种结合MPEG-7音频特征和词袋模型的―音频词袋‖特征。首先,提取网络视频的音频流,对其提取MPEG-7音频特征,通过对音频签名特征的分类和聚类,构造属于暴力场景特有的―音频词汇‖,通过特有的权重分配机制,获得新的―音频词袋‖特征。通过实验,本方法有不错的查全率,可以应用到网络视频的实时监控上。本文还通过视音频特征结合,提出了两种针对暴力视频特有的筛选模型,分别为结构张量筛选模型以及音频快速筛选模型。结构张量筛选模型是通过对视频进行结构张量特征(一种运动检测特征)过滤,得到运动比较激烈的画面,然后进行人脸检测及音频场景匹配。音频快速筛选模型是先提取音频特征进行常见暴力场景的匹配,对得到的候选镜头进行图像特征的精确分类。通过实验,音频快速筛选模型在分类速度上快于结构张量模型,而结构张量模型的准确率较高。两者都能比较好的应用于网络暴力视频的过滤中。

其他文献

集中式边坡应力无线远程监控系统

预测矿山、大坝、道路等边坡不稳定性带来的地质灾害,在人们的生产和生活中有着极其重要的意义,论文的目的在于设计并实现一套有效的边坡应力无线远程监控系统。通过对传统的

学位

无线通信CC2430荷载传感器集中处理电路VB语言

异构移动蜂窝网中上下行分离接入策略研究

最近几十年,移动通信经历了天翻地覆的变化,从2G到3G,从LTE到最近备受瞩目的下一代移动通信(5G),网络结构不断地发生变化,新的技术也层出不穷。现今的移动蜂窝网已演变成一个

学位

上下行分离移动蜂窝网用户接入能量效率5G

基于均值移动与粒子滤波算法的视频目标跟踪研究

视频目标跟踪是目前一个重要的研究领域，其在视频监控、交互休闲娱乐以及人工智能等方面都有着广泛的应用。论文针对视频目标跟踪过程中，不可避免的存在目标特征变化而导致跟踪

学位

目标跟踪粒子滤波均值移动主动轮廓模型外力模型梯度向量流权值计算

基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究

其他学术论文