【摘 要】
:
随着深度学习在静态图像识别领域的广泛发展和应用,深度学习在视频领域的研究逐渐成为计算机视觉的重要研究方向。其中智能监控作为视频识别的主要应用场景也成为了热门研究课题。视频监控场景的行为识别任务由于画面视野较大,视频内容较长且画面中可能出现多个目标发生行为,不仅需要识别行为的类别,还需要检测行为发生的空间位置和时间位置。本文针对ActEV测评中的实际监控视频场景,提出由目标识别、多目标跟踪、行为识别
论文部分内容阅读
随着深度学习在静态图像识别领域的广泛发展和应用,深度学习在视频领域的研究逐渐成为计算机视觉的重要研究方向。其中智能监控作为视频识别的主要应用场景也成为了热门研究课题。视频监控场景的行为识别任务由于画面视野较大,视频内容较长且画面中可能出现多个目标发生行为,不仅需要识别行为的类别,还需要检测行为发生的空间位置和时间位置。本文针对ActEV测评中的实际监控视频场景,提出由目标识别、多目标跟踪、行为识别与时域定位三个部分构成的视频行为识别框架。首先,使用预训练的YOLO v3模型对画面中出现的所有人和车辆进行目标识别,并使用卡尔曼滤波器和匈牙利算法对目标在视频中的移动进行目标跟踪,提取人物的局部视频序列,将候选视频序列作为行为识别与时域定位部分的输入。其次,对于行为识别与时域定位部分,本文提出了混合卷积残差网络和表示流网络融合的伪双流行为识别模型。采用三视图分解卷积层与二维卷积核混合的残差网络,使得网络在具有同样提取视频时空特征的情况下,相比传统三维卷积神经网络减少参数量和计算复杂度。表示流网络使用表示流层提取连续视频帧中的表示流信息,进一步提取视频中的运动特征。将两个网络的结果融合提升网络的整体识别准确率。行为识别与时域定位部分使用UCF-101数据集验证模型在通用行为类别下的识别效果。不使用表示流网络的单流模型在更少计算复杂度情况下可以达到较好的准确率,而使用了表示流网络的伪双流模型可以有效提高识别准确率,并保证满足实时检测的识别速度。对于整体行为识别框架的验证,本文针对ActEV评测项目,在其提供的包含真实场景监控视频数据的VIRAT数据集上验证,取得较实验室在ActEV 18中取得的结果更低的漏检率,能够更全面的检测并识别指定行为。
其他文献
两相流动中的散粒体系统颗粒破碎研究是当前许多领域关心的问题,该问题对于发射装药发射安全性研究具有重大意义。发射药床的挤压破碎是评定发射装药发射安全性的核心问题,对此的一般性研究是单独采用离散元法模拟颗粒、散粒体系统及内部颗粒的破碎,以动态挤压模型代替实际工程中的燃气推动作用,未考虑流体作用的复杂过程,本文的创新性在于还原实际工程中的气体冲击荷载,将复杂的气固相互作用考虑到发射药床的运动研究中。本文
在量子通信中,一般使用量子态作为信息的载体,即用量子态来编码信息。要有效地实现量子通信,就必须能准确的从所传递的量子态中提取编码的信息,也就是能很好的识别携带信息的量子态。而量子态在经过信道传输后,由于信道噪声的影响,原本正交的两个量子态会变非正交乃至近乎重叠的态。所以如何高效可靠的识别非正交的量子态,是量子通信中必须解决的问题。量子态识别的效率和可靠性直接决定了量子通信的质量。而应用量子信息、实
热传导过程中的反问题在工业领域中有很多重要的应用。例如窑炉、传热设备以及高温高压设备(如氨合成塔及大型乙烯装置中的废热锅炉等)中,由于涉及到高温高压的恶劣环境,一些物理参数比如热传导过程中的内部源项,热传导率,热传导过程的初始温度等无法直接测量。人们通常可以利用其他可测量的温度场相关数据通过数学上的反演方法得到这些未知参数,进而获得热传导方程的解,由此描述热传导过程。这类问题是典型的热传导方程参数
Drazin逆是一类非常重要的经典广义逆,在复矩阵,Banach代数,C*-代数等领域已经取得了相对完整的结果.Clean环研究起源于模的消去性问题,而在研究模的消去性问题中最重要的问题之一是研究环的exchange性,这方面的研究成果非常丰富.Clean环与Drazin逆有紧密的联系,在Drazin逆和clean环的研究过程中,吴藏和赵良引入了中心Drazin逆,中心群逆以及中心clean元的概
本文主要研究有限维半单拟三角Hopf代数上的广义Frobenius-Schur指标,我们定义了有限维半单拟三角Hopf代数上的一类广义Frobenius-Schur指标,并通过研究这类指标的某些算术条件及性质来间接获取相关拟三角Hopf代数的结构信息.本文主要分为以下四个部分:首先给出有限维半单拟三角Hopf代数上的广义Frobenius-Schur指标初始定义并根据定义计算了 4阶以下循环群代数
加权异构信息网络(Weighted Heterogeneous Information Networks,WHIN)是图模型的扩展,具有异构性、语义丰富性和关联性,有更好的语义表达能力,被越来越多地用做数据表示模型。大数据时代下,相似性查询处理技术得到广泛应用,是目前数据管理技术的研究重点之一。图编辑距离(Graph Edit Distance,GED)最常用于度量图模型的相似度。然而,GED仅能
人脸识别技术是近几十年来飞速发展的领域,得到了广泛的关注。随着深度学习的不断发展,对人脸识别的研究取得了许多突破性的进展。基于深度学习的识别算法甚至超过了人类肉眼的水平,然而这些研究大多是在正面人脸或者近似正面人脸的前提下,因此这些研究都存在着一定的局限性。本文为了解决多姿态人脸识别,从生成正面人脸的角度出发,深入研究了现有基于生成对抗网络的偏转人脸转正算法,并在此基础上提出了两种人脸转正方法。本
隐喻作为一种修辞手法,最早出现在语言学研究范畴。近年来,被设计师逐步引入人机界面设计领域。界面隐喻作为一种设计手法能够以用户经验背景为基础提供相关启示,辅助用户完成界面认知行为。目前,对数字图形界面隐喻性的研究仍停在初步视觉、美学设计研究阶段,视觉作为用户界面信息认知主要通道,国内外学术界对于其认知机理解码也处于起始,并未形成规范性、统一性的界面设计指导。本文将数字图形界面的隐喻性作为研究对象,综
图像增强是现今图像处理领域的一个研究热点,主要任务是将各种影响人们观感的图像进行处理,使其能够恢复图像原有的信息,提高图像质量。其中视频监控作为日常生活中最为常见的应用,由于会受到恶劣环境、电磁干扰等各种不良因素的影响,导致监控视频出现不清晰,多噪声,低分辨的问题。低质量的监控图像将影响监控效率,因此对监控图像进行增强变得尤为重要。本文基于生成对抗网络,将图像降噪和图像超分辨两种任务相结合,在已有
背景:目前,我国前列腺癌(PCa)患者确诊时往往已发展为中晚期,常伴有盆腔淋巴结转移、精囊腺侵犯、膀胱或直肠侵犯等。因此,PCa的早期诊断仍是临床上有待克服的难题。传统影像学检查如B超、CT、MRI等,在PCa诊断中发挥了重要作用,但敏感性和特异性不高,常常出现漏诊甚至误诊的情况。近年的研究发现,68Ga-PSMA PET/CT因具有优异的诊断效能,在PCa的早期诊断中发挥重要作用。mpMRI因结