论文部分内容阅读
视频人体行为识别是计算机视觉领域的研究热点之一,具有十分深远的理论研究意义和广阔的实际应用前景。由于存在人体行为多样性造成的行为类间变化丰富和类内差异明显等问题,以及实际场景中复杂背景环境、视角及光照变化等干扰因素造成的行为时空特征提取不够高效的问题,基于视频的人体行为识别是一个极具挑战性的研究课题。近年来,得益于计算机性能的不断提升和网络上视频数据的爆炸式增长,数据驱动的深度学习技术发展迅速,成为人体行为识别任务的主流实现手段。目前基于深度学习的人体行为识别已经开展了大量研究工作并取得了一定进展,但仍存在以下不足:(1)基于深度卷积网络的行为识别方法倾向于根据场景和目标的外观特征来预测行为,容易受到杂乱背景的影响,且无法主动聚焦视频行为的显著运动区域,从而导致识别性能受限;(2)视频行为识别高度依赖于有效的时空特征学习,而现有的2D深度卷积网络擅长提取视频中丰富的空间信息,缺乏直接建模视频时间结构的能力;(3)3D深度卷积神经网络具有同时学习时空特征的显著优势,但其包含的大量参数增加了模型的复杂性。此外,目前基于3D卷积网络的视频行为识别工作大多依赖于单一数据模态,限制了识别性能。本文针对上述问题展开深入的算法研究,主要研究工作包括:(1)基于层次动态深度投影差值图像表示与卷积神经网络的人体行为识别方法。针对基于2D卷积神经网络(Convolutional Neural Networks,CNN)的行为识别方法需要从视频中分别提取空间和时间特征且时空信息表达不够高效的问题,围绕深度视频行为识别,提出一种高效视频行为表示方法——层次动态深度投影差值图像(Hierarchical Dynamic Depth Projected Difference Images,HDDPDI)。该方法将深度视频序列投影在三个正交的笛卡尔平面内,利用排序池化技术对每个投影平面中行为的时空运动变化进行多时间尺度编码,生成的HDDPDI表示从不同视角及不同时间尺度同时捕获行为的时空信息,能够有效描述深度视频行为的三维运动模式。将三个投影视角的HDDPDI分别输入2D CNN进行时空特征学习,同时基于不同网络层设计了三种多视角信息融合方案来实现行为识别。在三个公共人体行为数据集上的实验结果表明,HDDPDI视频表示包含了丰富的时空运动信息,使CNN能够学习到更加全面的行为特征,且融合多视角信息能够显著提升深度视频行为识别的性能。(2)基于通道与时空兴趣点注意力卷积神经网络的人体行为识别方法。针对CNN缺乏建模视频长时依赖性的能力以及对视频中显著行为运动区域不敏感的问题,提出了通道与时空兴趣点注意力卷积神经网络,同时对行为视频提出了动态图像序列表示,通过时序建模局部短时时空结构来有效表达整个视频的长时时空动态变化。通道与时空兴趣点注意力模型包含通道注意力和时空兴趣点注意力两部分,通道注意力通过自动学习多通道卷积特征为不同通道分配不同的权值,以强化网络中具有辨识力的特征通道;时空兴趣点注意力将从动态图像中检测的时空兴趣点映射在特征图空间来生成空间注意力权值,以聚焦行为显著运动区域。该模型能够被灵活地嵌入到CNN中来增强网络的特征表达能力,长短时记忆网络(Long Short-Term Memory,LSTM)基于强化后的卷积特征建模时间依赖性并进行行为预测。实验结果表明,所提方法充分利用了卷积特征多通道、空间化的特点,能够提取具有辨识力的时空信息,显著提升视频行为识别的性能。(3)基于3D CNN时空多模态学习的人体行为识别方法。针对目前基于3D CNN的行为识别工作大多依赖于单一 RGB数据模态,从而限制了 3D网络性能的现状,提出了一个多模态双流3D网络行为识别框架,探索3D CNN对深度和姿态数据下时空特征的学习能力,并融合不同数据模态的互补信息来提高识别性能。该方法构建了深度残差动态图像序列(Depth Residual Dynamic Image Sequence,DRDIS)和姿态估计图序列(Pose Estimation Map Sequence,PEMS)作为多模态视频行为表达,DRDIS通过一组动态帧来建模行为的显著时空运动模式,PEMS通过一组彩色编码的姿态图像来直观地描述身体姿势的时空演化过程。基于四个行为数据集的实验结果表明,3D CNN能有效学习深度和姿态数据中的时空信息,多模态融合有助于增强视频行为识别的性能。(4)基于多级通道注意力导向时空运动学习的人体行为识别方法。针对现有大多数行为识别方法基于卷积特征学习时空线索,而没有同时考虑特征通道差异性的问题,提出了一个多级通道注意力导向时空运动学习模块(Multi-level Channel Attention Guided Spatio-Temporal Motion Learning,MCA-STML),在通道注意力的引导下有效地捕捉人体行为的时空演化。该模块包含两个阶段:多级通道注意力激活(Multi-level Channel Attention Excitation,MCAE)和时空运动建模(Spatio-Temporal Motion Modeling,STMM)。MCAE基于视频卷积特征生成运动感知的帧级和视频级通道关系。STMM在MCAE的引导下,选择部分运动显著的特征通道沿时间维度捕获双向空间运动动态。MCA-STML模块能够有效且灵活地对时空结构进行建模,并且可以以非常有限的额外计算成本嵌入到许多流行的2D网络中,以增强其时空建模能力。实验结果表明,所提方法能够有效增强网络的时空运动学习能力,取得具有竞争力的行为识别结果。