基于深度学习的视频人体行为识别算法研究

被引量 : 0次 | 上传用户:liongliong471
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频人体行为识别是计算机视觉领域的研究热点之一,具有十分深远的理论研究意义和广阔的实际应用前景。由于存在人体行为多样性造成的行为类间变化丰富和类内差异明显等问题,以及实际场景中复杂背景环境、视角及光照变化等干扰因素造成的行为时空特征提取不够高效的问题,基于视频的人体行为识别是一个极具挑战性的研究课题。近年来,得益于计算机性能的不断提升和网络上视频数据的爆炸式增长,数据驱动的深度学习技术发展迅速,成为人体行为识别任务的主流实现手段。目前基于深度学习的人体行为识别已经开展了大量研究工作并取得了一定进展,但仍存在以下不足:(1)基于深度卷积网络的行为识别方法倾向于根据场景和目标的外观特征来预测行为,容易受到杂乱背景的影响,且无法主动聚焦视频行为的显著运动区域,从而导致识别性能受限;(2)视频行为识别高度依赖于有效的时空特征学习,而现有的2D深度卷积网络擅长提取视频中丰富的空间信息,缺乏直接建模视频时间结构的能力;(3)3D深度卷积神经网络具有同时学习时空特征的显著优势,但其包含的大量参数增加了模型的复杂性。此外,目前基于3D卷积网络的视频行为识别工作大多依赖于单一数据模态,限制了识别性能。本文针对上述问题展开深入的算法研究,主要研究工作包括:(1)基于层次动态深度投影差值图像表示与卷积神经网络的人体行为识别方法。针对基于2D卷积神经网络(Convolutional Neural Networks,CNN)的行为识别方法需要从视频中分别提取空间和时间特征且时空信息表达不够高效的问题,围绕深度视频行为识别,提出一种高效视频行为表示方法——层次动态深度投影差值图像(Hierarchical Dynamic Depth Projected Difference Images,HDDPDI)。该方法将深度视频序列投影在三个正交的笛卡尔平面内,利用排序池化技术对每个投影平面中行为的时空运动变化进行多时间尺度编码,生成的HDDPDI表示从不同视角及不同时间尺度同时捕获行为的时空信息,能够有效描述深度视频行为的三维运动模式。将三个投影视角的HDDPDI分别输入2D CNN进行时空特征学习,同时基于不同网络层设计了三种多视角信息融合方案来实现行为识别。在三个公共人体行为数据集上的实验结果表明,HDDPDI视频表示包含了丰富的时空运动信息,使CNN能够学习到更加全面的行为特征,且融合多视角信息能够显著提升深度视频行为识别的性能。(2)基于通道与时空兴趣点注意力卷积神经网络的人体行为识别方法。针对CNN缺乏建模视频长时依赖性的能力以及对视频中显著行为运动区域不敏感的问题,提出了通道与时空兴趣点注意力卷积神经网络,同时对行为视频提出了动态图像序列表示,通过时序建模局部短时时空结构来有效表达整个视频的长时时空动态变化。通道与时空兴趣点注意力模型包含通道注意力和时空兴趣点注意力两部分,通道注意力通过自动学习多通道卷积特征为不同通道分配不同的权值,以强化网络中具有辨识力的特征通道;时空兴趣点注意力将从动态图像中检测的时空兴趣点映射在特征图空间来生成空间注意力权值,以聚焦行为显著运动区域。该模型能够被灵活地嵌入到CNN中来增强网络的特征表达能力,长短时记忆网络(Long Short-Term Memory,LSTM)基于强化后的卷积特征建模时间依赖性并进行行为预测。实验结果表明,所提方法充分利用了卷积特征多通道、空间化的特点,能够提取具有辨识力的时空信息,显著提升视频行为识别的性能。(3)基于3D CNN时空多模态学习的人体行为识别方法。针对目前基于3D CNN的行为识别工作大多依赖于单一 RGB数据模态,从而限制了 3D网络性能的现状,提出了一个多模态双流3D网络行为识别框架,探索3D CNN对深度和姿态数据下时空特征的学习能力,并融合不同数据模态的互补信息来提高识别性能。该方法构建了深度残差动态图像序列(Depth Residual Dynamic Image Sequence,DRDIS)和姿态估计图序列(Pose Estimation Map Sequence,PEMS)作为多模态视频行为表达,DRDIS通过一组动态帧来建模行为的显著时空运动模式,PEMS通过一组彩色编码的姿态图像来直观地描述身体姿势的时空演化过程。基于四个行为数据集的实验结果表明,3D CNN能有效学习深度和姿态数据中的时空信息,多模态融合有助于增强视频行为识别的性能。(4)基于多级通道注意力导向时空运动学习的人体行为识别方法。针对现有大多数行为识别方法基于卷积特征学习时空线索,而没有同时考虑特征通道差异性的问题,提出了一个多级通道注意力导向时空运动学习模块(Multi-level Channel Attention Guided Spatio-Temporal Motion Learning,MCA-STML),在通道注意力的引导下有效地捕捉人体行为的时空演化。该模块包含两个阶段:多级通道注意力激活(Multi-level Channel Attention Excitation,MCAE)和时空运动建模(Spatio-Temporal Motion Modeling,STMM)。MCAE基于视频卷积特征生成运动感知的帧级和视频级通道关系。STMM在MCAE的引导下,选择部分运动显著的特征通道沿时间维度捕获双向空间运动动态。MCA-STML模块能够有效且灵活地对时空结构进行建模,并且可以以非常有限的额外计算成本嵌入到许多流行的2D网络中,以增强其时空建模能力。实验结果表明,所提方法能够有效增强网络的时空运动学习能力,取得具有竞争力的行为识别结果。
其他文献
<正>企业要科学、可持续地发展,必须重视企业文化建设。在确定企业文化内容的过程中,应当科学定位,兼容并蓄;宣传引领,贯彻落实;要对企业的价值观、信条、口号、作风、习俗、礼仪等文化要素进行不断重复和提升;要凝心聚力,铸就企业精神。
期刊
<正>李益民,绍兴文理学院化学化工学院教授,理学博士。现为绍兴文理学院化学一级学科硕士点、浙江省"十三五"一流建设学科化学学科无机化学方向学术带头人,绍兴市专业技术拔尖人才,绍兴市重点创新团队"无机功能材料"和绍兴市"新能源材料公共科技创新服务平台"负责人,浙江理工大学、宁波大学、绍兴文理学院硕士研究生导师。李益民教授主要从事环境污染物控制与修复、环境功能材料设计及其应用等研究。先后主持国家自然科
期刊
目的:为提高COVID-19检测灵敏度,减少新冠患者临床假阴性检测结果,本研究建立了一种SARS-CoV-2低拷贝假病毒RNA捕获方法。方法:利用链霉亲和素磁珠,设计并合成生物素探针捕获SARS-CoV-2假病毒RNA;对磁珠用量、生物素探针浓度和洗脱次数等捕获条件进行了优化;参考WHO发布的序列,针对SARS-CoV-2病毒基因组的ORF1ab基因和N基因序列合成引物和TaqMan探针,对捕获的
运用实地调查法、访谈法等研究方法,对新时代我国西北地区少数民族传统体育助力乡村振兴发展进行研究。主要对我国西北地区民族传统体育项目资源及分类情况、比赛活动开展情况、旅游开发情况、开发设计与管理人才情况、对外交流与宣传情况等进行分析,概括了西北地区民族传统体育的主体特征,总结了当前西北地区民族传统体育助力乡村振兴发展中存在的问题,提出了相关举措与建议,以期促进西北地区民族传统体育在民族团结、群众健身
陀螺马达作为惯性导航系统中陀螺仪的核心器件,直接用于驱动陀螺仪,对惯导产品的精度具有决定性影响,其在启动到停止过程中会产生反电动势,且其动态范围高达上百伏,对陀螺马达及周边电路产生较大危害,影响马达的性能及使用寿命,最终影响惯导产品的正常工作。本课题依托航天某所动压马达寿命评估系统,针对气浮陀螺马达反电动势的监测设计了多通道隔离数据采集卡。本文根据反电动势的特点和现场测试环境条件,设计并研制了具有
作为传统文化中的一种语言形式,初中文言文具有言简意赅、含蓄隽永的特点。在教学时,教师更应当注重语用功能的体现,即读写结合。为了提升学生读写结合的兴趣以及提高读写结合的能力,教师需要引导学生智趣读写,发掘文言文学习的别样乐趣与魅力。
作为重要的粮油饲兼用作物,大豆为世界膳食提供高达约71%的蛋白质和29%的油脂。随着人口不断增长和大豆消费需求的不断提高,在有限的耕地面积和单产条件下,大豆品质的遗传改良则更具重要意义。该文综述了大豆种子蛋白和油脂含量两个重要品质性状调控的研究进展,总结了调控大豆蛋白和油脂合成的关键酶和转录因子及因子间的相互作用,并根据蛋白和油脂合成代谢调控途径中关键酶和转录因子作用机制,绘制了大豆蛋白和油脂合成
在中国经济走高质量发展之路的现实需求下,建设统一大市场是提升城市生产率的重要途径。本文基于2002—2020年长三角城市群面板数据,实证检验市场一体化对城市生产率的规模门槛效应。实证结果表明:第一,长三角城市群的市场一体化对城市生产率的提升效应具有显著的城市规模异质性;第二,对城市规模高于门槛值的大市场而言,市场一体化与城市生产率关系呈现“倒U型”特征,小市场则与之相反。基于此,应正视城市群“虹吸