基于深度学习的骨架序列-视频动作识别研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:fanhaoguohuifang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉技术的迅猛发展,动作识别作为其重要的研究方向吸引了越来越多科研者的研究兴趣。当今,人体动作识别技术在交通、医学、体育、教育、虚拟现实、安防监控等领域有着广泛的应用空间以及巨大的发展前景。按输入数据类型划分,动作识别任务可以分为基于骨骼序列的动作识别和基于视频的动作识别。其中骨骼序列记录了连续时间内人体主要关节点的特征信息,如三维空间坐标。本文对这两种识别任务进行了详细地研究。结合主流算法在这两种任务上的表现,分别提出了相应的改进算法。本文研究内容如下:1.在基于骨骼序列的动作识别方面,本文受人类视觉机制的启发,讨论了注意力机制和共现特征机制的重要性,在空时图卷积网络(ST-GCN)的基础上,提出了适用于其的注意力分支和共现特征学习分支,从而形成动作识别的多任务框架。实验证明提出的算法性能远远优于ST-GCN和其他主流算法。最后进行消融实验,说明并解释了各分支的有效性以及多任务框架的优越性。2.在基于视频的动作识别方面,本文针对双流卷积网络需要预先计算光流从而导致计算速度慢的问题,提出了使用轨迹滤波器和随机跨帧融合的组合策略替代光流。其中,轨迹滤波器建模动作的时间联系,随机跨帧融合进一步提取高级时间特征。实验表明本文提出的替代光流的卷积网络在计算速度上远优于双流卷积网络,同时在识别精度方面,其与当前主流替代光流的算法相比具有极强的竞争力。3.人体姿态估计与动作识别联系紧密。本文总结了自底向上的姿态估计代表算法Open Pose和自顶向下的代表算法Alapha Pose。并通过一系列实验进行性能比较,本文最终使用Open Pose提取动作视频的骨骼序列,从而可以对视频使用基于骨骼序列的动作识别算法进行分类。
其他文献
聚类是将特征相似的数据对象放在同一个簇中,相异的放在不同簇中的过程,它在分析数据的特征以及内在结构时起到重要作用。现在聚类技术已经被广泛地应用于各个领域,如:金融行
视频预测技术即给定若干长度的连续视频帧,预测后续视频帧,是计算机视觉领域的重要课题之一。视频序列中的复杂运动以及大量的空间信息给视频预测带来了很大的挑战。一方面,
由于移动互联网的飞速发展,对数据传送速度的要求越来越高。WDM技术和SDH技术等传统通信技术,已经无法满足当前市场环境的需求。OTN技术在这样的需求中,越来越得到重视。OTN
BIM技术作为建筑业转型升级的关键技术,国家及地方政府相继出台大量的推动政策,旨在高效利用、充分发挥BIM技术自身及其外延效益,为建筑业发展带来实质性价值。然而,由于BIM
民主监督是人民政协三大职能之一。民主监督政府公共政策执行是政协履行民主监督职能的重要内容。然而在实践中,由于缺少法律的保障和流程的规范,政协民主监督实效普遍较差,
滚动轴承作为旋转机械的关键部件之一,其健康状态直接影响到整台设备的运行。准确预测滚动轴承的寿命退化趋势,可为设备维护提供有价值的状态信息和足够的响应时间,对保障设
随着工业化的快速发展,AGV(Automatic Guidance Vehicle,自动导引车)也被广泛的应用于各行各业,发展速度迅猛、潜力巨大。研究AGV的关键和基础是导航技术,传统的导引技术对环
CT图像肾脏分割是进行肾脏疾病定量分析的重要前提,对病情诊断和治疗有着支撑作用,但是肾脏组织结构复杂且形状多样,相关疾病也会导致肾脏形态发生大幅变化,使得从CT图像中准
我们每天都会接触很多不同的信息,与环境不停地进行着交流,而主要获取信息的方式就是通过视觉获取,在视觉获取中显示器占有很大的比例。就现阶段而言,显示器在很多领域都有使
静电纺丝法可制备具有丰富的气体吸附位点的网状结构材料,可用作气体传感材料。本文采用静电纺丝法制备ZnO纳米纤维,通过单因素实验获得了制备前驱体纤维的最佳工艺参数,并探