基于骨骼点的端到端行人动作识别算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:wennna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的快速发展,行人动作识别在视频监控、人机交互、动作分析及智能安防等领域得到了越来越广泛的应用。传统的行人动作识别大都是基于RGB视频或图像进行识别,但由于目标遮挡、光照变化和背景复杂等问题,行人动作识别效果并不理想。随着Kinect等深度传感器的普及,基于骨骼点的行人动作识别受到了广泛关注。现阶段对RGB视频进行基于骨骼点的动作识别方法中,通常采用骨骼点检测网络和基于骨骼点的动作识别网络相结合的二级串行结构,但这种方法的动作识别结果通常受骨骼点检测结果的影响比较大,为了避免因骨骼点检测不准确导致的基于骨骼点的动作识别错误问题,本文提出了一种基于骨骼点的端到端行人动作识别算法,该算法设计的端到端行人动作识别网络包含了骨骼点检测模块和基于骨骼点动作识别模块,将二级串行网络优化为一个端到端动作识别网络。在骨骼点检测模块,本文设计了以ResNet-50为基干网络的骨骼点检测结构,对输入的图像序列提取骨骼点信息,得到行人骨骼点的三维信息(2D坐标位置和是否为骨骼点的置信度分数);在动作识别模块设计了一个双流网络结构,一流是骨骼点的三维坐标,另一流是帧间骨骼点的运动信息即坐标值的差值;最后针对提出的端到端网络设计了一种多任务目标损失函数:将骨骼点检测模块的定位损失和识别模块的识别损失线性组合,这样不仅可以由骨骼点检测结果正向影响识别结果,识别结果也可以反馈调整骨骼点检测精度。为了验证本文提出的基于骨骼点的端到端行人动作识别算法的有效性,分别在公开数据集 NTU RGB-D 和 Northwestern-UCLA Multiview Action 3D Dataset(Northwestern-UCLA)上进行了实验验证。本文在NTURGB-D数据集的跨个体和跨视角方式中行人动作识别准确率分别达到了 85.9%和93.2%;在Northwestern-UCLA数据集的跨个体和跨视角方式中行人动作识别准确率分别达到了 87.8%和95.7%。相对于AlphaPose(RMPE:Regional Multi-Person Pose Estimation)和 ST-GCN(Spatial Temporal Graph Convolutional Networks)二级串行方法,本文在NTU RGB-D数据集的跨个体和跨视角方式中行人动作识别准确率分别提高了 12.4%和13.3%;在Northwestern-UCLA数据集的跨个体和跨视角方式中行人动作识别准确率分别提高了 8.3%和10.5%,从而验证了本文方法的有效性。在骨骼点检测方面,相对于AlphaPose和ST-GCN二级串行方法,本文的端到端方法在NTU RGB-D数据集和Northwestern-UCLA数据集上的骨骼点平均检测精度分别提高了 8.5%和11.4%,也从另一方面证明了本文算法中识别网络对检测结果的修订效果。在运行速度方面,本文的帧率在NTU RGB-D数据集和Northwestern-UCLA数据集上分别达到了 21和25,能够满足实时性的要求。实验结果证明,本文提出的基于骨骼点的端到端行人动作识别算法能够对视频中的行人动作进行有效的识别。
其他文献
我国经济已由高速增长阶段转向高质量发展阶段。从新发展理念包含的创新、协调、绿色、开放、共享五个维度考量发现,高质量发展的制约因素体现在自主创新能力不足,基础研究较为薄弱,科技创新的深度和广度不够;区域发展差距呈扩大趋势,国土利用空间布局不合理;工业化、城市化进程快速推进带来严重的环境污染,以及不合理的产业转移给生态环境带来负担;逆全球化和贸易保护主义抬头给我国带来了较大的贸易压力,而我国对外贸易相
集成成像技术是利用光学器件记录完整场景信息并实现显示过程的一种三维显示技术。由于该技术具有全部视差,显示色彩逼真和无视觉疲劳的优点,使其具有良好的发展前景。集成成像系统由场景信息记录阶段和场景信息显示阶段两部分组成,信息记录阶段利用透镜阵列将场景信息记录在微单元图像上,信息显示阶段利用光学或者计算重建的方法再现场景信息。利用稀疏相机阵列实现集成成像系统的记录和显示过程,可以简化系统的复杂度,提高分
人体姿态估计是从图像或视频信息中获取人体各个关节部位具体位置的过程,目前已被广泛应用到人机交互、视频监控、虚拟现实等领域。基于彩色图像的人体姿态估计算法容易受到颜色、环境等因素的影响,而深度图像在人体着装、肤色和遮挡等影响下具有较好的鲁棒性,能够更好地适应复杂环境的挑战。本论文主要研究了基于深度图像的人体姿态估计方法,能够有效解决深度图像的噪声干扰、数据冗余等问题,从而提高人体姿态估计模型的预测精
运算不仅是"数与代数"的核心内容,也与其他领域密切关联。数的运算是学生学习数学的基础,是每个学生必须具备的核心素养之一。教学中应重视理解数与运算的意义,在通透算理的基础上掌握算法,关注灵活运用简便算法,从而培养学生的运算能力。
随着社会的飞速发展、科技的不断进步和人民生活质量的提高,传统劳动密集型产业普遍出现劳动力紧缺、人工成本增高和急需生产技术研发升级的问题。本文针对浙江省永新集团建设智能袜业示范园区的目标,总结分析现如今袜业生产现状以及其存在的问题,提出了袜业智能生产线开发研究的总体思路以及生产线的生产工艺流程方案,设计研发出袜业智能车间设备的总体布局方案以及生产调度系统,对完成生产线需要的关键设备进行了研发设计,并
流数据具有实时、连续、动态变化的特点,其广泛存在于网络监测、金融交易以及传感器检测等领域。从流数据中挖掘信息、发现规律,并对系统行为进行分析,预测未来的变化趋势,可以提高生产生活中的决策和评判效率,具有重要意义。流数据海量实时的特点,要求处理系统需具备高负荷的处理能力。基于CPU(Central Processing Unit)的串行处理是当前处理流数据的主要方式。串行方式不仅耗时长,而且难以达到
针对袜企目前打样周期长、与袜品卖家沟通时间长等问题,探索对三维电子袜样的仿真模拟技术及相关软件开发。本人以Pierce模型为基础,对纬编针织物单位线圈进行建模,再对其组织结构进行分析研究,在Visual Studio环境下,使用VC++语言,借助3dsmax工具实现了三维电子袜样的模拟。模拟结果很好地表现了纬编针织组织在空间中的串套关系,同时直观展示了袜品的三维编织效果。主要完成了以下工作:(1)
随着深度学习与人工智能技术的不断发展,人体行为识别技术得到了越来越多的关注,其广泛应用于人机交互、无人商店、安防监控、病人护理、虚拟现实等领域。行为识别的目标是从场景中的视频图像序列中对人体动作进行理解分析,准确高效显得尤为关键。因深度传感器可有效的避免受到光照、遮挡,环境变化等因素的影响,基于骨骼数据的行为识别方法在模式识别领域成为了热门研究方向。在近几年的研究中,将人体姿态建模为时空图结构的图
陕西凤翔木版年画作为中国传统民间美术代表之一,发源于西北民间,其画面形象和色彩风格均是数百年来关中民间百姓审美取向的体现,因此具有独树一帜的民间艺术风格和浓郁的关中地方特色,也因此吸引了无数爱好者。近年来,伴随着我国对民间艺术传承与发展重视性的提高以及人民群众对民间传统艺术的欣赏,凤翔木版年画不仅在国内名声赫赫,并且走出国门走向世界,受到众多海外艺术家和爱好者的赞美,并且被国内外许多研究单位、艺术
行人重识别技术(Person re-idcntification,re-id)是一种利用计算机视觉技术来准确判断图像或者视频序列中是否存在特定行人的技术,一般认为这是图像检索的子问题。近年来深度学习的不断发展使得行人重识别技术取得了极大地成功,该技术也在智能安防和智能监控等领域得到广泛应用。由于行人容易受到姿态变化、视角改变、复杂背景以及遮挡等方面的影响,使得行人难以被识别和检索,目前存在许多亟待