论文部分内容阅读
人体行为识别是近年来人工智能领域的研究热点之一,其广泛应用于视频监控、人机交互、视频检索以及医疗辅助等领域。在过去的十几年中,人体行为识别的研究取得了长足进步,各类方法层出不穷,这些方法大都通过提取底层视觉特征信息对人体行为进行表征,比如剪影、光流、梯度、时空特征和深度特征等。此外,一些方法从大脑认知的角度研究视觉行为的表达与计算,不仅可以对认知行为机理的研究提供实验性证明,还可以通过实验对认知科学理论进行反馈和完善。因此,对人体行为识别展开研究具有重要的理论意义和应用价值。 相对于静态图像的目标识别任务,人体行为识别更加关注目标在视频序列中的时空运动变化。视觉行为的存在方式从二维空间扩展到三维时空大大增加了行为表达以及目标识别的复杂性。传统的行为识别方法多是以单目RGB视频数据作为处理对象,这类数据对外界因素异常敏感,比如光照变化、视角变化、遮挡、背景干扰等,造成识别效果不能令人满意。此外,单目视频采集设备不能完全捕获3D场景中的人体运动信息,不适用于真实场景下的行为识别。因此,人体行为识别仍然有诸多挑战性问题需要解决。 本文针对有限的视频数据资源,分别以RGB视频序列和三维骨架序列作为研究对象,将特征与行为之间、行为与行为之间的相关性作为潜在信息。通过在多任务学习框架中引入约束条件充分挖掘潜在信息对行为识别的影响,从而尽可能地增大行为类间差异,同时减小行为类内差异,以提高人体行为识别方法的精确性和泛化性。主要内容包括以下三方面: 首先,针对RGB视频序列,将Fisher矢量作为行为表示特征,利用互信息刻画人体行为之间的相关性,进而构建超级行为组结构――Super Category,将其视为潜在信息以刻画不同人体行为类别的聚类关系。利用多任务学习框架对多类人体行为进行联合表示,学习过程中融合超级行为组结构信息,引入组内的特征共享和组间的特征竞争,以增大行为类别的判别性。实验表明,所提出的方法不仅提高了分类器的识别性能和泛化性能,而且有效缓解了人体行为识别过程中样本有限的问题。 其次,针对三维骨架序列,基于各关节点对行为表达能力存在的差异性,设计了一种新的中级粒度表示――skelets,并且利用互信息实现了对该差异性的合理量化。在生成的原生skelets空间中,将skelets作为潜变量,构建了基于最大间隔的潜变量多任务学习框架,通过引入联合组稀疏约束,充分挖掘表示特征与行为类别之间的潜在联系。实验结果表明, skelets表示不仅能有效抑制人体骨架序列中的噪声干扰,而且具有更好的灵活性;同时,该方法能有效解决人体行为识别过程中人体行为类内散度大、类间模糊带来的识别困难,显著提高了识别准确度。 最后,针对人体行为类内差异所导致的低识别率问题,我们提出了判别性多实例-多任务联合学习模型,将每个骨架序列看成是包含多个示例的包,利用多示例学习挖掘对特定行为类别更具有判别力的关节点配置,根据显著关节点配置建立了不同人体行为间的潜在相关结构;在多任务学习过程中融合潜在相关信息,利用任务组正则化进一步挖掘不同人体行为之间的内在相关性。实验结果表明,所提出的多示例-多任务联合学习方法有效揭示了人体骨架中各关节点与特定行为的潜在关联,并有效减轻了由人体运动高自由度导致的类内散度过大和类间模糊的问题。