论文部分内容阅读
5G等通信技术的飞速发展使得视频越来越成为信息呈现和传播的主要载体,大量的视频信息已经超出了人脑的处理范围,迫切需要借助于计算机强大的分析和处理能力,解决日益增加的视觉感知计算需求。人体行为识别作为视觉感知计算的一个重要分支,其结果可用于智能视频监控、智能医疗、人机交互、无人驾驶等多个领域,具有非常重要的研究意义。传统的行为识别方法主要以RGB视频作为输入,但RGB视频存在数据量大、语义性低、容易使模型受到背景等无关信息干扰等问题,而骨架序列仅记录人体关节点的位置坐标,数据量小、语义性高,且不记录背景等无关信息,模型表达的鲁棒性强。因此,基于骨架序列的人体行为识别模型的研究越来越受到学术界的关注。其中,采用图卷积神经网络的方法根据人体的物理结构将骨架序列编码为一张时空图,然后进行时空特征的提取和分类,取得了较高的识别精度。然而,现有方法仍存在时间建模尺度单一、空间建模能力不足和时空特征耦合不佳等三个问题。为此,本文提出了四种基于图卷积神经网络的人体骨架行为识别网络模型系统地解决这些问题,具体介绍如下:(1)本文提出了一种多流融合和增强时空的图卷积网络模型MS-ESTGCN。其中,a)设计多个大小不同的时间卷积核提取多尺度的时间特征,并采用密集连接的方式连接各时间图卷积子层,实现了时间特征的重用和聚合。b)设计了一种双分支空间增强结构,在MS-ESTGCN的基本模块中增加了一个空间图卷积分支以增强空间特征的提取能力。c)为了充分利用低层次特征,MS-ESTGCN采用四种空间信息(关节点、骨骼和它们的相对位置)和两种时间信息(关节点和骨骼的速率)作为输入,组成了六流的网络框架,增加网络输入特征。MS-ESTGCN的参数量为37.8M,在NTU-RGB+D 60数据集的跨对象评测方法下,识别精度达到了91.4%。(2)本文提出了一种强化空间和扩展时间的图卷积网络模型EEGCN。其中,a)采用单次聚合的方法连接多个时间图卷积子层,在提取多尺度时间特征的同时,还能大幅减少各层之间的连接数。b)设计了一种伪双流空间增强结构,该结构中的一个伪流可以增强静态的空间特征,另一个伪流可以增强动态的时间特征,进一步提高了网络性能。c)引入了一种通道注意力模块为时空特征图的通道重新赋权,实现更好的时空特征耦合。EEGCN的参数量为17.2M,在NTU-RGB+D 60数据集的跨对象评测方法下,识别精度为91.6%。(3)本文提出了一种单向金字塔图卷积网络模型SPGCN。其中,a)提出了一种单向金字塔图卷积结构用于提取时间特征,该种卷积通过一个多样化的时间卷积核类型池捕捉不同层次的时间信息。b)设计了一种基于共享图的伪双流空间增强结构,设置SPGCN基本模块中的两个空间图卷积层共享同一个自适应图,在保持性能的同时还能降低参数量。c)提出使用交叉熵和成对高斯两种损失函数,可以同时最大化行为的类间分离度和类内紧凑度。SPGCN的参数量为11.2M,在NTU-RGB+D 60数据集的跨对象评测方法下,识别精度为91.1%。(4)本文提出了一种频率驱动通道注意力增强的全尺度时间建模网络模型FF-TMN。其中,a)提出了一种全尺度时间建模方法,各时间图卷积子层通过采用从1到9范围内的所有可用卷积核,实现更加全面的时间建模。b)提出了一种频率驱动的通道注意力模块,通过采用不同的策略,即全局平均池化和离散余弦变换,将特征图的空间和时间特征嵌入全局通道描述符,实现更好的时空特征耦合。FF-TMN的参数量为5.0M,在NTU-RGB+D 60数据集的跨对象评测方法下,识别精度为91.2%。总之,本文所提出的四种模型均达到了业界领先的行为识别精度,且网络参数量依次下降显著。