论文部分内容阅读
基于静态图像的人体行为识别是计算机视觉的主要研究方向之一,其研究的目标是给定一幅静态图像,识别出图像中的人物主体在做什么。静态图像的人体行为识别方法可分为两大类:一是将其视为一般的图像分类问题,即不考虑人体行为独有的特性对图像直接进行分类;二是通过挖掘和行为相关的关键因素(如人体姿态、物体和场景等)来获得更有效的行为特征,从而进行识别。深度神经网络的出现,使计算机视觉各个领域的性能都大幅度提升,同样,也使基于静态图像的人体行为识别更加满足实际应用需求。但由于拍摄视角、人在执行同一行为时的姿态多样性等因素,使人体行为在二维静态图像上呈现出的外观特征复杂多样,从而使该识别问题变的非常困难。本文从三个角度来解决这一问题:一是将其视为一般的图像分类问题,借助稀疏编码和字典学习方法增强图像局部特征的表示能力;二是建模和行为相关的场景、姿态关键因素,借助深度学习方法进一步增强图像表示能力;三是利用视频序列为静态图像补充动态信息,丰富静态图像的行为表示。最后,将该课题和实际应用相结合,研究其在移动端的优化及部署方式。本文主要工作和贡献如下:(1)针对传统字典学习方法使用基于主成分分析降维的空间金字塔特征表示整幅图像而丢失部分细节信息和局部判别能力的问题,提出两种解决方案:一是提出一种级联字典学习方案,一级字典为标准的字典学习和稀疏编码,二级字典基于一级稀疏编码空间金字塔特征的矩阵形式学习一种具有判别能力的组和块编码模型;二是提出一种基于局部描述子的监督式字典学习和监督式稀疏编码模型,在字典学习和稀疏编码阶段同时引入样本标签信息,同时,提出一种基于最大间距准则的判别式加权模型,并将其融入到多核学习框架中快速学习得到加权系数和分类器模型。(2)针对2D人体关节点坐标无法直接应用到行为识别的问题,基于深度卷积神经网络,提出两种以姿态为辅助信息的提高静态图像人体行为识别性能的方法:一是提出对图像进行姿态估计以获取人和场景交互的关键区域,然后将该区域和人体区域一起送入到一个端到端的特征提取和特征融合框架中;二是提出一种以姿态估计网络为网络结构、以姿态估计模型为初始化参数的一般图像分类模型,为第一个模型提供了更多的互补信息。(3)针对静态图像缺少动态信息的问题,提出一种基于卷积神经网络的知识迁移模型,将行为视频序列中的RGB空间信息和光流空间信息迁移到静态图像行为识别模型中。借助生成模型结构,使用单幅RGB图像生成RGB序列和光流序列中具有判别能力的特征,同时提出一种基于重构误差和分类误差加权的误差函数指引网络的生成过程,成功丰富了静态图像表示、赋予了静态图像识别模型一定的动态表示能力。(4)针对深度神经网络的嵌入式端应用,提出一种基于特征重构的网络压缩和小型化方案,借助Teacher-Student结构使具有更少参数的Student网络重构具有更多参数的Teacher网络的输出,并提出一种有效的多阶段训练策略,在保证姿态估计性能的前提下,大大降低了网络参数和计算量;同时借助蒸馏模型对行为识别网络进行压缩,成功将姿态估计和行为识别应用到智能摄影中。