论文部分内容阅读
人体动作识别是判断一段视频中人的动作的类别。人体动作识别具有广泛的应用前景,如火车站监控、智能医疗机器人、考场作弊行为分析等。传统的动作识别方法需要手动提取视频的特征进行分类,工作量较大且识别率低。基于深度学习的方法能够自动的提取视频中的特征,更准确的识别视频中的动作。目前基于深度学习的动作识别方法主要存在两个问题:一是现有的方法无法有效利用视频中的关键时空信息,特征中存在着大量的冗余时空信息。二是现有方法缺乏对交互动作中关键时空信息的推理,动作识别率尚存提升空间。因此,本文以双流网络为基础提出两种动作识别方法来提高动作识别性能。首先,本文提出一种基于双流时空注意力机制的动作识别方法。该方法先将通道注意力机制引入到双流基础网络中,通过对特征通道间的依赖关系进行建模来校准通道信息,提高特征的表达能力。其次,提出一种基于CNN(Convolutional Neural Networks,CNN)的时间注意力模型,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。同时,提出一种多空间注意力模型,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域。接着,对时空特征进行融合进一步增强视频的特征表示。最后,将融合后的特征输入到分类网络,按不同权重融合两流输出得到动作识别结果。其次,考虑到动作识别视频中有许多交互动作,执行交互对象之间和不同帧间的关系推理能进一步的提高识别性能。本文提出一种基于图卷积(Graph Convolutional Network,GCN)的双流异构时空关系网络的动作识别方法。该方法在外观流和运动流分别采用不同的网络结构来提取特征以获取更丰富的视频信息。为了得到与动作相关的多个对象的信息,提出通道分组注意力网络,根据通道信息对每帧的区域进行聚类分组。接着将每帧的不同对象看作图中节点,定义邻接关系后通过GCN建模不同对象的关系,再利用GCN对视频不同帧的关系进行推理来建模视频的时序关系,从而提高动作识别精度。最后,本文的两种方法均在数据集HMDB51和UCF101进行了相关对比实验。实验结果表明本文提出的基于双流时空注意力机制的动作识别方法能充分利用视频中关键时空信息,更有效的识别视频中的动作。本文提出的基于GCN的双流异构时空关系网络的动作识别方法能显著的建模视频中和动作相关的对象信息,挖掘出不同帧之间的关系,有效的识别数据集中的交互动作,提高动作识别的准确率。