论文部分内容阅读
现在互联网上出现了越来越多包含丰富元数据的视频。元数据指的是标题、标签和描述等信息,它能帮助人们理解视频的内容。其中的标签信息,作为一种对视频语义上的标注,是视频重要的索引形式之一,现在绝大多数视频检索都是依靠它得以实现。但是,视频的标签信息往往对视频的描述不够具体和精确,现在的标签一般是对整个视频内容的描述,事实上,大部分的标签描述的内容只针对视频中的某些部分。本文通过对标签定位技术的研究,能实现对视频内容更加具体和精确的标注。这样,不仅有益于实现快速准确的视频检索,也对视频相关的应用和研究领域十分有意义。本文首先明确了互联网视频标签定位问题的含义,介绍了它的研究意义,相关领域及基本方法。然后介绍了本文中提出的一种结合主题模型和核密度估计模型的方法。由于视频最基本的组成单元是关键帧,标签定位的目的实际上就是实现从视频的标注到关键帧的标注。本文提出的算法包括三个步骤,首先,本文用核密度估计模型计算关键帧的相关度,选择与给定语义相关度较高的关键帧组成验证集。然后本文基于主题模型利用隐藏的语义信息学习到语义主题,并使用前一步得到的验证集计算主题与标签的相关度。最后对每个关键帧本文根据它的主题分布及第一步计算出的相关度重新进行相关度计算,得到最终相关的关键帧集合。本文中提出的算法在一个真实的数据集YouTube22上进行了测试,实验结果验证了算法的有效性。YouTube22数据集不是专门用于测试标签定位算法,而随着越来越多的人关注标签定位问题,人们迫切需要一个能进行公正评测的基准数据集,本文发布并详细介绍了—个专门用于标签定位算法评测的数据集名为DUT-WEBV,这个数据集包含50个概念,共4000个视频,本文对每个视频都进行了精确的人工标注,本文提出的算法也在这个数据集上进行了测试。最后本文介绍了基于通用目标检测进行对象相关语义定位的方法。