基于深度学习的人体行为识别关键技术的研究及实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:fitye228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别尤其是基于视频的人体行为识别是近年来计算机视觉领域的研究热点之一,它广泛应用于智能监控、智能安防、虚拟现实、人机交互和协作等领域。因此具有广泛的研究价值和应用前景。本文从深度神经网络结构、特征融合和模型融合三个方面对基于视频的人体行为识别进行了研究,并在UCF101[23]和HMDB51[22]这两个开源的数据集上进行了验证。本文的贡献概述为以下三个方面:(1)基于深度神经网络的人体行为识别。针对2D卷积无法同时提取时空特征和3D卷积参数过大而导致难以训练等问题,本文引入了3D残差结构,设计了3D残差模型。为了更好地捕获连续多帧的数据之间的关联特征,本文引入了3D注意力机制,通过对相邻的帧赋予不同的注意力值来捕获这种全局关联特征。实验证明这两种结构均提升了识别的性能。针对3D残差和3D注意力机制的优异表现,本文采用了两种融合策略将它们进行融合,对应产生了两种结构。实验表明,融合后的结构相比于单一结构均有着不同程度的性能提升。(2)基于特征融合的人体行为识别。鉴于本文的特征提取层解耦为浅层特征层和深层特征层两部分,它们代表了同一类型特征的不同粒度表示,因此本文采用了相加和拼接两种融合策略来进行融合。实验表明,两种策略对应的浅层特征的融合均强化了人体行为特征的表示。为了进一步提升模型的识别准确率,本文利用Farneback[81]算法对RBG图片提取了光流,然后提取其浅层光流特征,再和对应的RGB浅层特征进行基于贡献度的相加融合或拼接融合。实验表明,光流特征的融合相比于浅层特征的融合带来了更大的性能提升,其中基于特征贡献度的相加融合策略又获得最优的性能表现。(3)基于模型融合的人体行为识别。针对本文设计的三大类模型:3D残差模型、3D注意力模型和3D注意力残差模型,本文提出了平均和加权两种模型融合策略。其中加权融合是先利用本文设计的模型权重计算方法赋予高准确率模型更高的融合比重。实验结果表明,两种融合策略均带来了不同程度的性能提升,其中模型加权融合的方式所带来的提升幅度更为明显,整体提升的平均值达到了3%左右。
其他文献
觅食是动物生存中基本的活动,是动物生长发育、繁殖、运动所需营养和能量的来源,而味觉是动物觅食的基础。味觉是指舌头表面的味蕾所触发的感觉,能感觉到甜味、咸味、酸.、苦
园区已经成为工业发展的主要载体之一,是推动企业工业升级上档、加速地域经济发展,实现工业现代化的有力举措。工业园区对我国经济的发展做出了巨大的贡献。它极大地提升了区
一、前言 1.“社会主义资本”作为经济社会的基本范畴越来越受到理论界的广泛关注。除了老一辈著名的经济学家宋涛、蒋学模、卫兴华等早在10 多年前在各种报刊上阐明自己的观
会议
能源需求的增加跟全球气候变暖是人类面临的全新挑战。全球变暖带来的一系列极端气候问题越来越警示着人类做出改变。开发清洁是解决这些问题最关键的一步。氢能是最清洁的绿
能源需求的增加以及随之而带来的环境污染问题,正促使科学家们开发可持续的、环境友好型的替代能源,以代替不断消耗的不可再生资源(化石燃料)。氢作为一种可再生的清洁能源,由
景观格局与生态服务之间存在一定的关系,其关联一直受到相关领域研究学者的深切关注。本文以潮白河流域为研究对象,利用遥感影像制作成景观格局图,分析1978-2017年景观格局特
随着通信、计算机等行业的快速发展,工业4.0智能时代即将到来。智能机器人的研发成为可能,各种形式的机器人逐渐取代人类走进工厂、家庭,成为人类不可或缺的好帮手。本文基于
书展又称图书博览会、图书订货会、书市,是出版产业的“风向标”,出版活动的重要组成部分,服务于图书出版及相关行业。城市书展是书展的一种类型,指以城市为主体举办的,以书
随着我国经济的快速发展,城市化水平越来越高,城市发展消耗的土地资源与日俱增。与此同时,庞大的人口基数也加剧了城市的人地矛盾。在此基础上,作为城市更新众多方式中的一种
我国工业发展迅猛,但在工业生产的同时也排出大量的废水。大量废水进入环境不仅会污染环境和破坏生态,而且威胁到人们的身体健康,因此必须花大力气对工业废水和污水进行净化