基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhanranran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络视频的普及与流行,互联网上存在着各类视频。近些年,计算机视觉越来越得到关注,通过分析计算机中的二进制数据,可以区分每个视频的所属类别。传统的基于内容的视频分类技术主要分为视频和音频特征提取两部分,视频特征主要提取图像的全局特征如颜色、纹理、形状等,并比较这些视觉特征间的相似性,从而自动搜索出符合用户要求的图像。而音频特征主要提取音频流的音频特征,如基音频率带宽、频谱流量、Mel倒谱系数、声音功率等。这些视频和音频特征通过分类器训练学习后,能够对视频类别有较为准确的识别。另一方面,由于网络上充斥着各类不健康的视频,尤其是其中的一些恐怖和暴力视频对于儿童的发展是有比较大的危害,需要对这些视频进行标注和监管。近年来,对于网络视频的监管需求越来越高。针对以上需求,本文提出两种针对暴力视频的分类方法。本文介绍了一种结合MPEG-7音频特征和词袋模型的―音频词袋‖特征。首先,提取网络视频的音频流,对其提取MPEG-7音频特征,通过对音频签名特征的分类和聚类,构造属于暴力场景特有的―音频词汇‖,通过特有的权重分配机制,获得新的―音频词袋‖特征。通过实验,本方法有不错的查全率,可以应用到网络视频的实时监控上。本文还通过视音频特征结合,提出了两种针对暴力视频特有的筛选模型,分别为结构张量筛选模型以及音频快速筛选模型。结构张量筛选模型是通过对视频进行结构张量特征(一种运动检测特征)过滤,得到运动比较激烈的画面,然后进行人脸检测及音频场景匹配。音频快速筛选模型是先提取音频特征进行常见暴力场景的匹配,对得到的候选镜头进行图像特征的精确分类。通过实验,音频快速筛选模型在分类速度上快于结构张量模型,而结构张量模型的准确率较高。两者都能比较好的应用于网络暴力视频的过滤中。
其他文献
新时代背景下,要求高校院系行政秘书必须明确自身的角色定位,提高专业素质和能力,为院系发展做出贡献.本文以高校系部行政秘书为例,就系部行政秘书的角色定位、以及素质要求
期刊
近些年政府大力倡导“工匠精神”.文章在介绍“工匠精神”内涵的基础上阐述了在航海职业教育中培养学生工匠精神的必要性,并就航海职业教育工匠精神的培养模式进行了探索和研
高等院校是培养高素质综合型人才的重要平台,然而当前越来越严峻的形势使得大学生毕业后难以获得理想工作,因此国家颁布实施了众多大学生创业鼓励政策,引导大学生积极创业.但
预测矿山、大坝、道路等边坡不稳定性带来的地质灾害,在人们的生产和生活中有着极其重要的意义,论文的目的在于设计并实现一套有效的边坡应力无线远程监控系统。通过对传统的
随着计算机技术和网络技术的飞速发展,教育信息化已经受到政府、社会以及相关领域人员的高度重视.本文就开源环境对本科教学现状及教学方式进行研究,希望对我国教育事业有所
最近几十年,移动通信经历了天翻地覆的变化,从2G到3G,从LTE到最近备受瞩目的下一代移动通信(5G),网络结构不断地发生变化,新的技术也层出不穷。现今的移动蜂窝网已演变成一个
视频目标跟踪是目前一个重要的研究领域,其在视频监控、交互休闲娱乐以及人工智能等方面都有着广泛的应用。论文针对视频目标跟踪过程中,不可避免的存在目标特征变化而导致跟踪
本文以山东职业学院为例,研究探讨了如何以职业院校的人才培养目标为引导,充分利用职业院校优质实训实操的办学资源,提升职业院校学生职业能力培养,完善实习实训场所建设,打