基于深度学习的视频分类和检测关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:lazysands
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频是人类获取信息的重要来源。在当前信息时代,数据爆炸式的增长,随着各种视频拍摄设备的普及,人们日常拍摄并上传视频,互联网和社交媒体上已经积累了大量视频。据有关统计,每分钟上传到某知名视频网站上的视频就有300小时。如此大量的视频内容和播放量给我们带来了巨大的机遇的同时,也带了非常大的挑战。如此大量的视频,使用人力来逐个进行分析以及过滤几乎是不可能的,因此,我们迫切地需要开发能够自动理解分析视频内容的智能系统。为达到理解视频内容的目的,一个关键的技术挑战是理解视频中包含的目标和行为。例如,付费视频网站需要了解每个运动比赛视频中包含哪些目标和体育活动,以为用户提供更精准的推荐;视频剪辑师需要根据所需内容的关键字自动的从视频中提取相关的视频片段;自动驾驶汽车需要了解行驶安全范围内的其他各种车辆和行人所在的位置和他们行为以采取相应的行动。为了理解视频中的目标和行为,本文以提高视频分类和视频检测准确度和速度优化目标,围绕图像视频分类、视频时域检测以及视频空间检测等问题,研究其中涉及的若干关键技术。本文的主要工作及创新点概括如下:(1)提出了一种基于信息融合和时序变换网络的视频分类方法。有效的时空特征表示对于基于视频的动作识别任务至关重要。着重于区分时空特征学习,我们在流行的时态分段网络(TSN)框架的基础上,提出了信息融合时域转换网络(IF-TTN)用于动作识别。在网络中,信息融合模块(IFM)旨在在每个视频片段的多个ConvNet层上融合外观和动作特征,从而形成短期视频描述。以融合特征作为输入,采用时间转换网络(TTN)来按照顺序对相邻片段之间的中期时间转换建模。由于TSN本身通过分段的融合描述了长期的时间结构,因此我们提出的网络全面考虑了多个粒度的时间特征。就我们所知,这是结合短期时空特征融合,顺序中期时间建模和长期时间建模的第一项工作。我们的IF-TTN在两个最受欢迎的动作识别数据集:UCF101和HMDB51上获得了最好的结果。实验表明,我们的网络结构对输入运动图质量具有鲁棒性。用压缩视频流中的运动矢量代替光流,其性能仍可与基于光流的方法媲美,而测试速度却快了 10倍。(2)提出了一种基于时序保持卷积的时域行为检测方法。时域行为定位是计算机视觉的重要任务。尽管研究员们已经提出了各种方法,但是如何精确地预测行为片段的时间边界仍然是一个悬而未决的问题。大多数研究工作使用时域片段级别的分类器来选择通过行为片段提名或者滑动窗口预先选定的视频片段。然而,为了实现更精确的动作边界定位,时域行为定位系统应该以精细的粒度进行密集预测。最近新提出的工作利用卷积反卷积CDC对三维卷积神经网络3D ConvNets的预测进行上采样,从而可以执行每帧的行为预测,并在时域行为定位任务实现较好的性能[21]。然而,CDC网络部分由于时域下采样操作而丢失时间信息。在本文中,我们提出了一个优雅而强大的时域保持卷积Temporal Preservation Convolutional(TPC)网络,它为 3D ConvNets 配备了 TPC滤波器。TPC网络可以完全保留时间分辨率并同时对空间分辨率进行下采样,从而实现帧级粒度动作定位,同时最小化时间信息丢失。TPC网络可以采用实现端到端的训练方式。公共数据集的实验结果表明,TPC网络在每帧动作预测和片段级时间动作定位的结果都取得了显著的进步。(3)提出了一种基于帧分割网络的时域行为检测方法。时域行为定位是计算机视觉的重要任务。尽管研究员已经提出了许多方法,但是如何精确地预测行为段的时间位置仍然是一个悬而未决的问题。大多数最先进的工作都会在行为提议预先确定的视频片段上训练行为分类器。但是,最近的工作发现,理想的模型应该超越片段级别,并以细粒度及时做出密集的预测,以确定精确的时间边界,他们提出了基于3D CNN的模型来在帧级别执行行为预测。我们在上一章提出的TPC也是基于3D CNN的模型,但是,大量参数使3D CNN难以训练。为了解决此问题,我们提出了一种将3D CNN分解为2D CNN和1D CNN的帧分割网络(FSN)。一维时间CNN放置在2D CNN的顶部。2D CNN负责在空间维度上抽象语义,而时间CNN负责引入时间上下文信息并执行密集的预测。提出的FSN可以使用空间和时间上下文信息在视频剪辑的帧级进行密集预测。FSN以端到端的方式进行训练,因此可以在时空领域共同优化模型。在公共数据集上的实验结果表明,FSN在帧级行为定位方面表现出色,在时间行为定位方面具有竞争优势。我们还调整了 FSN以在弱监督场景中使用它,其中在训练时仅提供视频级别标签,并且实验结果表明,弱监督FSN(WFSN)在弱监督时间行为定位方面取得了显著改善,并且可以与某些强监督方法相提并论。(4)提出了一种基于注意力和端到端学习的空间目标检测方法。由于没有实例级类别注释,因此对于弱监督的目标检测网络要准确地预测目标的位置非常具有挑战性。大多数现有方法倾向于通过使用两阶段学习过程来解决该问题,即多实例学习检测器,然后使用多实例学习检测器测出的伪标签训练具有边界框回归的完全监督学习检测器。根据我们的观察,此过程可能导致某些目标类别的局部最小值。在本文中,我们建议以端到端的方式联合训练两个阶段以解决此问题。具体来说,我们设计一个具有多个实例学习和边界框回归分支(共享相同主干)的单个网络。同时,将使用分类损失引导的注意模块添加到主干网络,以有效地提取特征中的隐式位置信息。在公共数据集上的实验结果表明,我们的方法达到了最先进的性能。由于没有实例级类别注释,因此对于弱监督的目标检测网络要准确地预测目标的位置非常具有挑战性。大多数现有方法倾向于通过使用两阶段学习过程来解决该问题,即多实例学习检测器,然后使用多实例学习检测器测出的伪标签训练具有边界框回归的完全监督学习检测器。根据我们的观察,此过程可能导致某些目标类别的局部最小值。在本文中,我们建议以端到端的方式联合培训两个阶段以解决此问题。具体来说,我们设计一个具有多个实例学习和边界框回归分支(共享相同主干)的单个网络。同时,将使用分类损失引导的注意模块添加到主干网络,以有效地提取特征中的隐式位置信息。在公共数据集上的实验结果表明,我们的方法达到了最先进的性能。
其他文献
计算机、手机等智能设备在给人们带来便利的同时,也带来很多安全问题。传统的观点认为物理隔离环境下的系统相对安全,但随着技术的发展,这种防护方式也面临着新的威胁。作为信息隐藏技术的重要部分,音频隐写技术近几年发展迅速,同时声学隐蔽通道是突破物理隔离的一种重要方式,因此研究物理隔离环境下基于音频的隐蔽通信方法具有重要的意义。本文以物理隔离环境为背景,以音频隐写为主要研究对象,从隐蔽通信的实际应用角度出发
端点拥塞是高性能计算(HPC)互连网络的瓶颈,并严重影响系统性能,尤其是对延迟敏感的应用程序来说。对于持续时间远远大于网络往返时间(RTT)的长消息(或流),网络可以通过主动或被动的拥塞控制机制将每个源的注入速率动态控制为适当的水平,从而有效地减轻端点拥塞。但是,许多HPC应用程序产生混合流量,即短消息和长消息的混合,并且由短消息在数量上占主导,但长消息的总量很大。要调度由这些短消息引起的快速变化
教学质量评价工作是教育评估的一项重要工作。本论文针对目前教学质量评价缺乏统一全面的评价方案的现状,在全面分析教学活动各要素的基础上,构建了一种多视角复合型教学质量评价体系,提出了基于多种现代评价方法的教学质量评价方案,详细设计了各个环节的评价指标体系和评价方法,并在Excel中实现了各个评价环节的计算,制作了各个评价环节的评价计算表,验证了本文提出的评价方案的合理性和可行性,并开发了基于Web的学
近年来,随着生活水平的提高和交通的快速发展,世界人口的指数增长和随之而来的城市化导致人群聚集得更加频繁。在这种情况下,人群密度分析的问题对于在人群监视和场景理解等拥挤场景中建立更高水平的认知能力至关重要,在公共安全领域意义重大。人群密度分析旨在对拥挤场景中的人数进行分析,计算总人数和密度估计,其中密度估计旨在将输入的人群图像映射到其对应的人群密度图。但像其他任何计算机视觉问题一样,人群密度分析也面
多智能体编队控制是指多个智能体在向目标机动的过程中,形成并保持某种特定构型,同时能够躲避障碍以适应环境约束的控制技术,在工业、军事、航天等众多领域有着重要的应用价值。本文以此为研究背景,开展了相对位置约束型编队机动控制方法设计、相对方位约束型编队机动控制方法设计、智能体之间的碰撞规避以及编队控制建模与仿真分析等问题的研究,取得的主要成果如下:相对位置约束型编队机动控制方法设计。假设各跟随智能体能够
漏洞是危害计算机系统安全的主要因素之一,程序漏洞的自动检测具有非常重要的研究意义,也是一个非常具有挑战的研究问题。通常,漏洞检测需要分析不完整的程序(Partial Program),而传统基于规则的静态漏洞检测方法和工具在分析不完整程序上具有较高的漏报率和误报率。机器学习(特别是深度学习)为不完整程序漏洞检测提供了新的思路,但已有方法在真实程序上的效果仍然有待验证。我们提出了基于图神经网络的不完
近年来,伴随着大数据的兴起,大规模正则化经验风险极小化问题出现在各个领域中。作为一种求解此类大规模问题的途径,临近增量累积梯度方法(PIAG)得到了研究者的广泛关注。临近增量累积梯度方法可对应多种具体的算法实现,包括循环指标、随机指标、中心分布式等,因而有着广泛的应用前景。本文对PIAG将会涉及的研究工作进行了系统的设想和构建,从非精确算法、Bregman距离、加速格式、非凸分析、对偶算法、原对偶
惯性导航是一种自主导航方式,可以不依赖于任何外部信息支持而独立的完成导航任务,在军用与民用领域都有着广泛应用。加速度计与陀螺仪是惯性导航的核心器件。本文在对比分析了传统加速度计的优缺点基础上,针对基于双光纤光阱的光力加速度传感系统展开了初步的理论与实验研究。简单回顾了惯性导航技术的发展历程,比较了不同种类加速度计的原理和优缺点,重点分析了光力加速度传感技术的原理优势与前沿进展,指出了其高精度、小型
近年来,随着新媒体信息技术的飞速进步和传播手段的多样发展,各国国防部网站不断发展完善,网站面貌更迭焕新,但官方网站的权威属性和价值传播的实战效能始终位于核心增长点。作为最早建立的国防部门户网站,美国国防部网站几经改版,成为当今国际社会最具代表性的国防部网站之一,其重要功能之一是发布兼备机构话语、新闻话语、国防话语、军事话语的语类特征的军事新闻报道。这些报道表现出以网页为载体的多模态文本的形式特征,
随着人工智能技术的快速发展以及智能汽车应用需求的日益增长,车辆智能驾驶技术已成为当前的研究热点。智能驾驶关键技术包括环境感知、行为决策、路径规划、运动控制等,其中行为决策与运动控制技术是衡量智能驾驶车辆自主能力的关键指标,也是智能驾驶研究的重点和难点。目前,智能车辆环境感知技术已经取得了大量的研究成果,但车辆行为决策与运动控制方法仍较依赖人工先验知识来设计专家规则或模型,对复杂环境适应性不强。在动