论文部分内容阅读
人体行为识别尤其是基于视频的人体行为识别是近年来计算机视觉领域的研究热点之一,它广泛应用于智能监控、智能安防、虚拟现实、人机交互和协作等领域。因此具有广泛的研究价值和应用前景。本文从深度神经网络结构、特征融合和模型融合三个方面对基于视频的人体行为识别进行了研究,并在UCF101[23]和HMDB51[22]这两个开源的数据集上进行了验证。本文的贡献概述为以下三个方面:(1)基于深度神经网络的人体行为识别。针对2D卷积无法同时提取时空特征和3D卷积参数过大而导致难以训练等问题,本文引入了3D残差结构,设计了3D残差模型。为了更好地捕获连续多帧的数据之间的关联特征,本文引入了3D注意力机制,通过对相邻的帧赋予不同的注意力值来捕获这种全局关联特征。实验证明这两种结构均提升了识别的性能。针对3D残差和3D注意力机制的优异表现,本文采用了两种融合策略将它们进行融合,对应产生了两种结构。实验表明,融合后的结构相比于单一结构均有着不同程度的性能提升。(2)基于特征融合的人体行为识别。鉴于本文的特征提取层解耦为浅层特征层和深层特征层两部分,它们代表了同一类型特征的不同粒度表示,因此本文采用了相加和拼接两种融合策略来进行融合。实验表明,两种策略对应的浅层特征的融合均强化了人体行为特征的表示。为了进一步提升模型的识别准确率,本文利用Farneback[81]算法对RBG图片提取了光流,然后提取其浅层光流特征,再和对应的RGB浅层特征进行基于贡献度的相加融合或拼接融合。实验表明,光流特征的融合相比于浅层特征的融合带来了更大的性能提升,其中基于特征贡献度的相加融合策略又获得最优的性能表现。(3)基于模型融合的人体行为识别。针对本文设计的三大类模型:3D残差模型、3D注意力模型和3D注意力残差模型,本文提出了平均和加权两种模型融合策略。其中加权融合是先利用本文设计的模型权重计算方法赋予高准确率模型更高的融合比重。实验结果表明,两种融合策略均带来了不同程度的性能提升,其中模型加权融合的方式所带来的提升幅度更为明显,整体提升的平均值达到了3%左右。