论文部分内容阅读
随着互联网技术的快速发展和三网融合的大力推进,互联网上的视频数量呈海量增长,对于视频内容的分析和监管也越来越重要。传统对于敏感视频的监管一般都是直接先下载后分析,这需要巨大的网络流量和海量的存储开销。针对上述问题,通过分析大量视频页面发现,视频包含丰富的关联文本信息,并且从现有研究成果来看,文本挖掘技术已经取得一定的成果,因此通过先对视频的关联文本进行挖掘,进而对敏感视频进行粗筛选,然后下载视频再进一步分析视频内容的语义,这样可以大大减少视频下载的数量,降低系统对网络和存储设备的要求,对监管系统的效率提高有着至关重要的作用。 本论文主要围绕视频关联文本的关键词提取、热点视频发现与监控以及敏感视频筛选等关键问题进行深入研究,并从实际问题出发,通过建立数学模型、提出相关算法、进行相关实验来进行阐述,最后将研究成果应用于互联网视频监控系统中。 本论文的主要工作和成果如下: 1.研究了文本挖掘相关基础,对于视频关联文本的关键词提取,改进了文本预处理方法,通过将候选词的词频和位置属性动态结合起来,并考虑候选词的词性、词跨度等属性,提出了基于多特征的关键词提取算法TFL-WS,最后通过实验验证了改进后的算法的效果准确率。 2.针对热点视频的发现和监控,首先给出了热点视频的发现方法,其次针对视频热度排序提出了一种结合二分查找的排序算法,随后通过基于相对热度计算的方法对热点视频进行监控。在敏感视频的筛选方面,给出基于类中心向量的方法来对视频文本进行分类,并且利用反馈学习机制来提高分类的效果。 3.基于上面的理论研究成果,本文介绍阐述了互联网视频监控系统的相关模块设计以及系统实现。 4.最后,对本文研究工作进行总结,并对接下来进一步的研究内容提出展望。