论文部分内容阅读
人体动作识别问题作为在以人为中心的计算机视觉活动的研究领域中的基本问题,在虚拟现实、增强现实和影视建模等领域都具有广泛的应用前景。在有标记的动作捕捉中,因为要穿戴专业设备,并且对背景的要求比较高,一般要求简单并且颜色差别大的背景,所需的成本和实验复杂度比较高。但随着Kinect等深度数据获取设备的不断发展,因其低成本、高精度和适应复杂背景等特点,其应用越来越广泛,被普遍应用于人体建模、场景重建和场景分类中。由该设备获取的深度图提取的三维人体骨架信息,以其简单、准确的对人体动作的表示,被普遍应用于人体动作识别和人体步态识别等领域的研究。因此,针对三维人体骨架的动作识别问题研究具有重要的意义和应用价值。虽然目前存在很多针对单台Kinect的三维人体动作识别研究,但都面临着相同的问题:人体遮挡导致单台Kinect采集的人体骨架不全面;基于骨架的动作识别算法中帧间信息利用不充分导致识别准确度不高。当整个人体全部正对Kinect摄像头前方时,采集的骨架是最准确的,但是当人体不完全正对摄像头时,会造成部分人体的三维关节点缺失或不准确,导致整个人体的三维骨架信息不完整;在基于三维人体骨架做动作识别算法研究时,大多数算法往往只考虑时间维度信息,没有充分考虑帧间信息以及帧内信息的有效利用,导致最终的动作识别准确度不高。针对以上问题,本文采用三台Kinect对人体骨架进行采集,并提出了用于三维骨架生成的加权融合算法,有效的对三维骨架信息进行补全形成高质量的三维人体骨架;基于时间卷积神经网络TCN提出了局部融合的神经网络模型,完成对三维骨架序列的高精度识别,并在当前最具挑战性的数据集NTU-RGB+D上取得了高精度的识别分类准确率。本文的主要工作和创新点如下:首先,基于三台Kinect分别得到不同角度的三维人体骨架数据,通过本文提出的加权融合算法完成对骨架的重构;提出了面向人体动作识别的局部特征融合时间卷积网络,并在NTU-RGB+D数据集上取得了较高的分类准确率。1.为了矫正Kinect摄像头可能出现的角度倾斜所导致的对应骨架数据不准确问题,首先根据三台Kinect获取的各自角度场景深度图数据,然后利用场景深度图得到对应的点云信息,点云信息包含了场景中每个点的坐标,这对获取地面主法向提供了原始数据。将点云数据中每个点与所邻接的两个点构成一个面片,即三个点构成一个面片,计算与当前点连接的所有面片的法向量,然后将与当前点连接的所有面片的法向量的平均值作为当前点的法向量;同理,计算出所有点的法向量;然后对所有点的法向量进行聚类,产生三个主法向量;选取和世界坐标系Y轴夹角最小的向量作为主法向(地面法向)。根据该主法向与地面夹角来调整三台Kinect对应的三维骨架数据。利用本文的融合算法完成对三个骨架的融合。2.为了提高基于三维骨架序列的动作识别准确度,本文充分结合了帧内和帧间的关节点活动信息提出了面向人体动作识别的局部特征融合时间卷积网络算法,基于该算法,对三维人体骨架序列进行全局特征和局部特征提取,有效的利用空间信息,最后将局部信息送入时间卷积神经网络完成时间维度的特征学习,从而有效的学习了动作的时空特征,使得动作识别准确度进一步提升。最后,在当前最具挑战性的三维数据集NTU-RGB+D上进行了实验,在两个实验数据集分配方式上,实验结果表明,与现有技术相比,本文的识别算法在分类正确率均超过了其他方法。并将本文研究的三台Kinect骨架融合与面向人体动作识别的局部特征融合时间卷积网络算法应用于骨架可视化与识别应用项目。