论文部分内容阅读
视频是人类获取信息的重要来源。在当前信息时代,数据爆炸式的增长,随着各种视频拍摄设备的普及,人们日常拍摄并上传视频,互联网和社交媒体上已经积累了大量视频。据有关统计,每分钟上传到某知名视频网站上的视频就有300小时。如此大量的视频内容和播放量给我们带来了巨大的机遇的同时,也带了非常大的挑战。如此大量的视频,使用人力来逐个进行分析以及过滤几乎是不可能的,因此,我们迫切地需要开发能够自动理解分析视频内容的智能系统。为达到理解视频内容的目的,一个关键的技术挑战是理解视频中包含的目标和行为。例如,付费视频网站需要了解每个运动比赛视频中包含哪些目标和体育活动,以为用户提供更精准的推荐;视频剪辑师需要根据所需内容的关键字自动的从视频中提取相关的视频片段;自动驾驶汽车需要了解行驶安全范围内的其他各种车辆和行人所在的位置和他们行为以采取相应的行动。为了理解视频中的目标和行为,本文以提高视频分类和视频检测准确度和速度优化目标,围绕图像视频分类、视频时域检测以及视频空间检测等问题,研究其中涉及的若干关键技术。本文的主要工作及创新点概括如下:(1)提出了一种基于信息融合和时序变换网络的视频分类方法。有效的时空特征表示对于基于视频的动作识别任务至关重要。着重于区分时空特征学习,我们在流行的时态分段网络(TSN)框架的基础上,提出了信息融合时域转换网络(IF-TTN)用于动作识别。在网络中,信息融合模块(IFM)旨在在每个视频片段的多个ConvNet层上融合外观和动作特征,从而形成短期视频描述。以融合特征作为输入,采用时间转换网络(TTN)来按照顺序对相邻片段之间的中期时间转换建模。由于TSN本身通过分段的融合描述了长期的时间结构,因此我们提出的网络全面考虑了多个粒度的时间特征。就我们所知,这是结合短期时空特征融合,顺序中期时间建模和长期时间建模的第一项工作。我们的IF-TTN在两个最受欢迎的动作识别数据集:UCF101和HMDB51上获得了最好的结果。实验表明,我们的网络结构对输入运动图质量具有鲁棒性。用压缩视频流中的运动矢量代替光流,其性能仍可与基于光流的方法媲美,而测试速度却快了 10倍。(2)提出了一种基于时序保持卷积的时域行为检测方法。时域行为定位是计算机视觉的重要任务。尽管研究员们已经提出了各种方法,但是如何精确地预测行为片段的时间边界仍然是一个悬而未决的问题。大多数研究工作使用时域片段级别的分类器来选择通过行为片段提名或者滑动窗口预先选定的视频片段。然而,为了实现更精确的动作边界定位,时域行为定位系统应该以精细的粒度进行密集预测。最近新提出的工作利用卷积反卷积CDC对三维卷积神经网络3D ConvNets的预测进行上采样,从而可以执行每帧的行为预测,并在时域行为定位任务实现较好的性能[21]。然而,CDC网络部分由于时域下采样操作而丢失时间信息。在本文中,我们提出了一个优雅而强大的时域保持卷积Temporal Preservation Convolutional(TPC)网络,它为 3D ConvNets 配备了 TPC滤波器。TPC网络可以完全保留时间分辨率并同时对空间分辨率进行下采样,从而实现帧级粒度动作定位,同时最小化时间信息丢失。TPC网络可以采用实现端到端的训练方式。公共数据集的实验结果表明,TPC网络在每帧动作预测和片段级时间动作定位的结果都取得了显著的进步。(3)提出了一种基于帧分割网络的时域行为检测方法。时域行为定位是计算机视觉的重要任务。尽管研究员已经提出了许多方法,但是如何精确地预测行为段的时间位置仍然是一个悬而未决的问题。大多数最先进的工作都会在行为提议预先确定的视频片段上训练行为分类器。但是,最近的工作发现,理想的模型应该超越片段级别,并以细粒度及时做出密集的预测,以确定精确的时间边界,他们提出了基于3D CNN的模型来在帧级别执行行为预测。我们在上一章提出的TPC也是基于3D CNN的模型,但是,大量参数使3D CNN难以训练。为了解决此问题,我们提出了一种将3D CNN分解为2D CNN和1D CNN的帧分割网络(FSN)。一维时间CNN放置在2D CNN的顶部。2D CNN负责在空间维度上抽象语义,而时间CNN负责引入时间上下文信息并执行密集的预测。提出的FSN可以使用空间和时间上下文信息在视频剪辑的帧级进行密集预测。FSN以端到端的方式进行训练,因此可以在时空领域共同优化模型。在公共数据集上的实验结果表明,FSN在帧级行为定位方面表现出色,在时间行为定位方面具有竞争优势。我们还调整了 FSN以在弱监督场景中使用它,其中在训练时仅提供视频级别标签,并且实验结果表明,弱监督FSN(WFSN)在弱监督时间行为定位方面取得了显著改善,并且可以与某些强监督方法相提并论。(4)提出了一种基于注意力和端到端学习的空间目标检测方法。由于没有实例级类别注释,因此对于弱监督的目标检测网络要准确地预测目标的位置非常具有挑战性。大多数现有方法倾向于通过使用两阶段学习过程来解决该问题,即多实例学习检测器,然后使用多实例学习检测器测出的伪标签训练具有边界框回归的完全监督学习检测器。根据我们的观察,此过程可能导致某些目标类别的局部最小值。在本文中,我们建议以端到端的方式联合训练两个阶段以解决此问题。具体来说,我们设计一个具有多个实例学习和边界框回归分支(共享相同主干)的单个网络。同时,将使用分类损失引导的注意模块添加到主干网络,以有效地提取特征中的隐式位置信息。在公共数据集上的实验结果表明,我们的方法达到了最先进的性能。由于没有实例级类别注释,因此对于弱监督的目标检测网络要准确地预测目标的位置非常具有挑战性。大多数现有方法倾向于通过使用两阶段学习过程来解决该问题,即多实例学习检测器,然后使用多实例学习检测器测出的伪标签训练具有边界框回归的完全监督学习检测器。根据我们的观察,此过程可能导致某些目标类别的局部最小值。在本文中,我们建议以端到端的方式联合培训两个阶段以解决此问题。具体来说,我们设计一个具有多个实例学习和边界框回归分支(共享相同主干)的单个网络。同时,将使用分类损失引导的注意模块添加到主干网络,以有效地提取特征中的隐式位置信息。在公共数据集上的实验结果表明,我们的方法达到了最先进的性能。