论文部分内容阅读
人体动作识别与检测技术是计算机视觉的重要研究方向,在智能监控、视频检索、人机交互、机器人等领域具有广泛的应用前景。随着低成本深度体感相机(例如Kinect)的发展,基于骨架的人类动作识别和检测受到越来越多研究者的关注。与彩色图像、深度图像相比,人体骨架能较好地反映出人体的运动轨迹,并能克服光照变化、背景噪声的影响。但是,如何将这种高维的时序信息表示成适合动作识别和检测算法处理的数据形式仍然是个待解决的问题。另外,目前大多数人体动作研究工作都针对已分割视频片段的动作识别。然而,实际的视频序列往往是连续的,而且一些实时应用还需要在线检测人体的动作。为了解决以上问题,本文将骨架序列的时间信息和空间信息分别表示成图像的行和列,生成骨架映射图;在已分割视频片段的动作识别任务中,利用卷积神经网络从骨架映射图中学习人体动作的判别特征,得到动作分类模型;在连续视频序列中,以动作分类模型为特征提取器,在生成的特征图上使用时序提议的方法检测目标动作;在实时动作检测中,通过滑动窗口的方式,利用动作分类模型识别正在发生的动作。具体研究内容和创新之处包括:1、提出了两种将骨架序列的时空信息编码为骨架映射图的方法,骨架映射图反映了人体姿态随时间的演变过程,并且相同的动作具有相似的纹理,为实现动作的识别与检测奠定了基础。构建的骨架映射图包括平移缩放不变的骨架坐标图和基于姿态字典的姿态变化图。骨架坐标图对不同用户之间的体型差异以及平移变化具有鲁棒性,姿态变化图体现了人体姿态与姿态字典各元素的相似度随时间的变化过程。2、设计了一种基于骨架映射图和卷积神经网络的动作分类模型,提高了已分割视频片段的动作识别准确率。同时为了避免卷积神经网络的过拟合,提出了骨架数据增强的方法。考虑到卷积神经网络在图像识别领域的优越性,利用卷积神经网络分别从骨架坐标图和姿态变化图提取关节的共现特征和姿态随时间变化的全局特征,并融合两个网络分支进行动作识别。在公开动作识别数据集NTU RGB+D和UTKinect-Action上进行了测试,结果表明提出的方法在识别准确率、模型大小等方面具有优势。3、为了减少候选框的数量并避免冗余的特征提取,提出了一种端到端的基于时序提议的人体动作检测方法,解决了连续视频序列中动作检测的计算效率低等问题。检测方法在目标检测算法Faster R-CNN的基础上,根据动作持续时间修改了多尺度提议窗口的大小,利用滑动窗口适应输入不同时长的连续动作序列,并且以多任务学习的方式同时训练分类和回归网络。在PKU-MMD数据集上进行了实验,结果表明提出的方法能有效的处理连续动作检测问题。4、利用在已分割视频片段上训练好的动作分类器,通过滑动窗口的方式,并结合动作发生的判别条件实现在线动作检测,满足了交互系统对实时性的需求。在服务机器人上进行人机交互实验,系统能实时捕捉并识别9类与用户健康相关的动作,并且根据动作检测的结果同步地生成服务机器人的服务指令,从而实现机器人的智能化服务。