论文部分内容阅读
人体姿态估计是图像分析和行为识别的重要基础,通过图像中人体关节点位置的检测,用于后续对图像内容的辅助理解。人体姿态估计具有广泛的应用前景,越来越多的被用在智能监控、人机交互和运动分析等领域。由于人体姿态估计普遍存在遮挡、多视角变化和背景干扰等问题,导致传统算法一直无法取得较高的准确度,对其展开研究意义重大。随着大数据时代的到来和硬件计算能力的提高,卷积神经网络重新进入了大众的视野,在各个计算机视觉如人脸识别、物体检测等领域取得了令人惊艳的成果。更多的人开始尝试用卷积神经网络去攻克传统方法无法解决的问题。本文选择使用卷积神经网络解决人体姿态估计问题。与传统方法大多对人体局部建模的方式不同,卷积神经网络强大的学习能力,可以有效利用关节点的上下文信息,从而进行更准确的推理和预测,较好地解决遮挡、多视角变化等传统难题。本文所作的研究工作主要如下:(1)分析了 DeepPose方法在预测精度及网络模型大小上存在的不足,设计一种全局姿态约束网络结构,通过堆叠多个包含3*3小卷积核的卷积层,替代DeepPose结构中包含较大卷积核的卷积层,该操作增加了网络的深度和非线性映射能力,使关节点检测的准确率有所提升;并使用全局平均池化层代替全连接层,极大地减少了网络模型的参数量,使得网络模型占用更少的内存资源,便于移植到一些资源受限的嵌入式设备中。(2)针对在小样本集的情况下,深度学习模型容易过拟合的问题,设计一种包含人体关节之间空间约束关系的目标函数。使用形状上下文算法度量所有关节点预测值集合与真实值集合之间在二维空间上的形状相似性,这种相似性包含了关节点之间的空间约束关系,将其作为惩罚项与平方损失函数共同构成目标函数,使得网络可以隐式的学习人体关节点的空间分布,并减轻网络的过拟合程度。(3)将本文姿态估计方法用于跌倒检测应用中。收集一部分模拟人体跌倒的图像数据,利用姿态估计的结果构造关节姿态图,使用LeNet-5作为基本网络结构,在此数据集上进行训练和测试。通过准确率、召回率、ROC曲线等指标对测试结果进行分析,验证了此方法对于跌倒检测的有效性。