论文部分内容阅读
随着RGB-D三维视频采集设备的日益普及,针对RGB-D视频的计算机视觉任务的研究越来越受到重视。相比于传统的RGB视频,增加的深度信息可以有效恢复场景的纵深信息,从而提升后续识别任务的精度。在此背景下,本文主要对RGB-D视频的人体姿态识别进行研究,利用深度神经网络进行三维关节点识别,并利用识别出的关节点数据进行后续动作分类,并在车内场景中验证所提算法的可行性,将算法与实际需求相结合。以下是本文的主要研究内容和贡献:第一,构建了一套车内的RGB-D姿态数据集,利用RGB-D摄像头和可穿戴惯性传感器采集数据。该数据集包含RGB视频、深度图像以及驾驶员三维关节点信息;并提出了一种时空同步方法,利用特定信号对齐和摄像机投影回归将多个数据流进行时间、空间对齐;通过特定人工标注帧的标注结果拟合实现大规模数据自动标注,减少人工工作量,为后续的姿态估计和动作识别提供可靠的车内场景数据。第二,设计了一种基于RGB-D数据的人体姿态估计算法模型。整个算法分为相对姿态估计和绝对姿态估计。相较于只使用2D姿态回归3D姿态的一些相对姿态估计算法,本文额外使用深度图像以弥补RGB图像的深度缺失。首先将典型2D姿态估计算法的结果和深度图像特征作为输入,结合空间注意力机制对深度图像特征提取,用深度特征和2D姿态回归出人体相对3D姿态;绝对姿态估计使用深度图像进行特征提取,检测出人体的根节点位置,结合相对姿态的估计结果即可得到人体的绝对姿态。在Human3.6M数据集上对算法性能进行测试,并与只用2D姿态的基线算法进行了对比。实验结果表明,提出的人体姿态估计算法能够有效减少平均关节点误差和根节点定位误差。第三,提出了一种基于三维骨骼序列信息的多尺度共现特征动作识别算法。目前学术界许多用于动作识别的图卷积模型将重点放在空间特征的学习上。提出的算法模型引入多尺度时域特征,采用多尺度时域卷积核提升模型对于时域特征信息的学习能力,从而使模型能够对不同持续时间的动作进行更好的识别;该算法使用图卷积模块学习人体拓扑关系特征,利用卷积的特性以及注意力机制学习非直连关节点的相关性,使空间特征的学习不受限于人体结构。实验结果表明该模型在NTU-RGB-D和Kinetics数据集的实验性能均超过了基线模型,并能够在车内数据集中对异常驾驶行为有效识别。