基于多领域知识卷积神经网络的动作识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jkhy66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体动作识别在计算机视觉、视频监视和检索、以及娱乐行业中有着许多实际的应用。随着深度学习和卷积神经网络的出现,动作识别取得了巨大的成功。在过去一段时间里,研究者们已经提出多种基于深度学习的动作识别技术。动作识别由于其需要有效的时空表示而被认为具有很强的挑战性。而且,动作识别中更难的是需要探索最相关的特征,并且涉及到了多个领域的知识。本文提出了三种方法来解决这些问题。在本文的第一个方法中,本文通过使用残差注意网络利用多种领域知识(原始RGB、姿势和骨架),以便从输入视频帧中提取最相关的特征。然后,本文使用路径签名特征对卷积神经网络的时空信息进行编码。在第二种方法中,精心设计了注意关节以强调与人体骨骼最相关的关节。这些注意力关节是根据身体中心的空间距离、关节之间的邻近距离而设计的,以捕获空间信息。同时,连续帧之间的注意力关节流动提供了时间域上的细节。我们将这些时空细节通过注意力关节的特征向量进行编码,并整合到一个图卷积神经网络中,最后根据这些信息进行分类。在本文的第三种方法中,我们是将图稀疏化用于基于骨骼的动作识别。长期时空图同时包含空间和时间信息,但它也固有地包含了冗余信息。这些冗余信息会导致过拟合,因此,我们提出了通过边缘有效的阻隔建模进行图稀疏化,从而得到只包含了少量节点和边的稀疏图。然后,我们还设计了一个带有自注意力图池化的图卷积神经网络,以突出动作分类的局部图结构。在具有挑战性的动作识别数据集(例如J-HMDB,HMDB-51,UCF-101,Stanford-40 Action,PKU-MMD,NTU RGB+D,NTU RGB+D-120,Kinetics-Skeleton和UTD-MHAD数据集)上评估了本文所提出的模型。这些数据集中具有各种各样的视频,例如You Tube视频、多个摄像机视频和动作图像等,充满了挑战性。与各种同期算法相比较,本文提出的方法取得了最好的性能。
其他文献
音乐不能完全和经济利益划等号。我不反对音乐走向市场,但是有些音乐、有些文化不能跟经济划等号。一些传统音乐、优秀的民族文化需要政府来支持和扶持。藏族传统的、优秀的
摘要:目前,国家和地方均开始出台相关的政策法规,提出幼儿教育办学体制改革。本文就幼儿教育社会化改革进行深入思考,对今后幼儿教育社会化发展加以探索,提出了自己的想法和思考。  关键词:幼儿教育;社会化;改革    我国的幼儿教育已成为当前幼儿教育研究者、老师、家长共同关注的一个热门话题。许多专家、学者开始重新认识幼儿教育的性质及培养目标,并提出了幼儿教育社会化改革的可行性与必要性。国家、地方政府、社