用于视频动作检测的时空多任务神经网络

来源 :浙江大学 | 被引量 : 0次 | 上传用户:naughty009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,通过使用深度学习技术,视频中的动作检测任务已经取得了十分显著的进步。在实际的应用中,更多的需求是在未裁剪的长视频中进行动作检测任务,然而由于在时间维度上定位一个动作的难度较大,目前已有方法的准确率都并不能令人满意。为了解决这一挑战,本文提出了一个基于时空特征的、多任务的、三维卷积神经网络,用于在未剪裁长视频中进行动作检测(包括时序定位)。首先,本文提出了一个融合网络结构,用于在训练阶段提取视频级时空特征。通过在动作识别任务数据集上评价这一融合网络结构,实验结果说明了视频级时空特征的有效性。第二,基于这一融合结构,本文提出了一个时空的多任务神经网络结构,这一网络结构中包含两个分支输出层分别用处动作分类和动作的时序定位。为了达到较高的时序定位的准确率,本文展现了一个新的时序回归方法,用于校正包含一个动作的时序候选框。与此同时,为了更好的利用视频中丰富的运动信息,本文引入了一个新的视频表示方法,交错图像,作为神经网络的一个另外的输入。综合以上本文提出的方法,最终本文的模型在标准数据集上的动作识别任务和动作检测任务上都超过了目前最好的方法。
其他文献
学位
人脸识别技术作为一项重要的智能识别技术,在视频监控、安全安防、金融等领域广泛用于人的身份鉴定。现代社会对信息安全的要求推动了人脸识别技术的快速发展,目前虽然对人脸识
无线传感器网络(Wireless Sensor Network, WSN)是由大量廉价、体积微小的传感器节点以自组织的方式组成的无线网络。节点能量有限是制约网络寿命的最重要因数之一。基于分簇
现代信息技术的飞速发展,使得传统的身份验证方法,如用户名+密码、智能卡、证件等已经远远不能够满足实际安全性能的需求。特别是在美国遭受9.11恐怖袭击事件以后,人们的安全问
在视频图像信息获取方面,视频信号源质量一直是计算机视觉的瓶颈问题,理想的计算机视觉信号源的获取装置是能实现景物深度和颜色一一对应的全景视觉传感器。主动式三维立体全景
随着计算机技术的快速发展,软件规模变得越来越大,软件复杂程度也越来越高,软件测试作为软件质量保证的必要手段,其重要性显得十分突出。在软件测试过程中,为了提高测试效率,降低测
地质灾害的发生通常是许多因素共同作用的结果,对其中各种因素所起的作用进行研究有助于预测或预防地质灾害的发生。但是,地质灾害的调查信息通常是不完备的,不能完全揭示导致地
在当今飞速发展的信息时代,信息化无疑成为了企业增强器其核心竞争力的利器。大小企业都争先建立相应的管理信息系统以促进自身的生产管理效率。以计算机数据方式存储在管理信
随着应用软件的需求和规模不断增大,自动化测试早已变成软件测试的主流趋势。传统的人工生成测试用例的方法产生的用例较少,且耗时耗力,需要高水平且经验丰富的测试人员来保
中医是中国的国粹之一,已经经历了几千年的发展。中医医案作为中医传承的重要载体,体现了中医理、法、方、药的综合运用,蕴含了历代名医丰富的临床诊疗经验,对于中医的学习、