大规模新闻网络视频话题检测与跟踪技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:gyzviking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当下网络视频数量激增,在线访问量巨大,现有搜索引擎不便于用户浏览、搜索并快速掌握新闻事件演化发展的缺陷,本文以著名的在线视频分享与社交网站YouTube作为代表性数据源,从2006年至2009年的四年间选取了22个全球热点新闻话题,总共获得19,972个视频作为主要研究对象,研究了基于网络视频搜索结果的新闻事件检测、事件关系挖掘和话题事件结构的建立。同时从文本特征分析和视觉特征分析两方面入手,结合文本和视觉的各自优势,提出了新闻网络视频突发事件挖掘和结构生成的系统技术框架。具体地,首先根据视频数量随用户上传时间的分布检测出话题的事件突发时间区间(Bursty Period),从而滤除与话题相关度不大的噪声视频。然后,对于筛选出的视频分文本和视觉两方面分别进行特征分析和挖掘,得到文本和视觉上各自的候选事件。在这一过程中,我们深入研究了共存性和特征轨迹两大特征模式分析方法在文本和视觉近似重复帧上的应用。接下来,内容相同或相似的文本和视觉事件通过一种二分图的方法被融合到一起。事件与事件之间的近似度被计算出来,由此又能将事件相互关联在一起,并映射到时间轴上,最终生成话题的事件关系结构图,使网络用户能够直观快速地了解新闻话题的主要事件及其发展演化过程。本文主要的研究内容和贡献如下:第一,提出了新闻网络视频突发事件挖掘和话题结构生成的一种新系统框架,该框架将细粒度的视觉特征和粗粒度的文本特征结合到一起,提升了事件聚类的性能;第二,考虑到新闻网络视频区别于传统新闻视频,文本内容稀疏且通常包含大量噪声,本研究利用近似重复帧(Near-Duplicate Keyframe, NDK),首次引入NDK序列生成的视觉特征轨迹作为事件挖掘的重要技术手段,并同文本特征结合起来;第三,探索了共存性(Co-occurrence)和特征轨迹(Feature Trajectory)在视觉近似重复帧上的应用,采用一种基于约束的聚类方法将两者的优势结合起来;第四,借助新系统框架,提出了一种话题事件结构生成算法,该算法将事件映射到时间轴上并展现出事件之间的联系,获得了较好的效果,也启发出一种新颖的视频浏览用户交互模式。实验结果表明,本文在视觉方面提出的事件检测方法取得了较高的精确度,并且文本和视觉相融合也较好地保留了两者的优势。由此生成的话题事件结构图直观地展现了新闻话题的主要事件及其发展脉络。
其他文献
现如今互联网快速的发展,数据与信息迅速的增加,各领域的资源可能无法满足自身需求。为了达到资源的共享,不同安全域之间会采用互操作的方法,从而获取对方领域的权限与资源。虽然
近年来,无线网络通信技术得到了快速的发展,便携式、微型化计算设备迅速普及,基于无线网络的应用和服务在互联网服务中所占的比例逐年增大。越来越多的移动通信用户开始使用具有
随着互联网技术的迅速发展,网格技术也逐渐发展壮大,它是一种针对复杂科学计算领域的分布式计算方法,它仍处在不断发展和变化之中。网格能够集成或共享地理上分布的各种资源,使之
在信息时代人们需要对大量的数据进行处理,去寻找其规律并对其进行运用。分类是数据处理时经常要做的工作,因此分类问题成为机器学习域的一个重要研究内容。支持向量机方法通
近年来随着web数据爆炸式的增长,数亿TB的数据分布在世界上无数的服务器上。传统的数据库管理系统对个人数据管理中存在的异构数据显得无能为力,数据空间这种新的数据管理技
为了研究人类认知的发展过程,需一个与婴儿的生理能力和生态背景相类似的模拟系统,DIVA模型(Directions Into of Articulators)就是这样的系统。DIVA模型是一种关于语音生成
数据挖掘的发展使人们从海量数据中获取有用的知识成为可能。微数据指区别于统计数据的个体数据,它是数据采集与发布的基本单位。随着人们对微数据中个体隐私信息的日益关注,对
在网络结构和规模日益复杂庞大的今天,网络应用业务不断增加与网络负载日益繁重形成对比,如何对现有网络进行优化设计和规划,整合利用现有网络资源,合理升级网络硬件结构,以使充分
随着互联网技术的发展,社交网络为人们的沟通、娱乐以及获取信息方式等提供了新的途径。如今,社交网络的功能日趋强大,基于不同用户需求的社交网络层出不穷。因此,如何最大限度挖
糖尿病是一种危害人类健康的慢性疾病,随着人们生活水平的提高,发病率也在不断攀升。世界糖尿病联盟的数据显示,全球目前有近2.9亿糖尿病患者。其中,新增加的糖尿病病人主要集中