【摘 要】
:
随着智能化设备的不断革新,很多产业的落地都需要海量的视频信息作为基础。视频信息相较于普通图像而言隐藏着巨大的价值。动态性、可持续性以及关联性都是视频所独有的特点,基于这些特性对视频数据进行挖掘将会收获极大的价值。对视频的行为识别研究是计算机视觉与模式识别领域的重要研究课题,行为识别不但具有重要的科学意义,而且具有十分关键的现实应用价值,对我们的生活产生很大的影响。行为识别主要应用领域包括远程识别、
论文部分内容阅读
随着智能化设备的不断革新,很多产业的落地都需要海量的视频信息作为基础。视频信息相较于普通图像而言隐藏着巨大的价值。动态性、可持续性以及关联性都是视频所独有的特点,基于这些特性对视频数据进行挖掘将会收获极大的价值。对视频的行为识别研究是计算机视觉与模式识别领域的重要研究课题,行为识别不但具有重要的科学意义,而且具有十分关键的现实应用价值,对我们的生活产生很大的影响。行为识别主要应用领域包括远程识别、虚拟现实、社交视频推荐、自动驾驶、人脸识别、视频监控等。作为计算机视觉与模式识别中一个重要的、具有挑战性的课题,研究人员对视频行为识别不断深入探索,已经取得了一定的研究进展。早期的研究主要关注基于传统机器学习的视频行为识别方法,而随着性能优越的深度学习算法的出现,目前行为识别的研究主要侧重于设计有效的深度学习模型来实现对行为的精确识别。在现有的基于深度学习的视频行为识别方法中,3D CNNs充分学习了连续帧之间的时间衍化,在探索时空特征中有着良好的性能,但同时也增加了计算成本。为了解决这个问题,本文提出一种新的网络,将其命名为基于时空分组与协作网络的视频行为识别方法(Video Action Recognition based on Spatiotemporal Grouping and Cooperative Network,SGCN),即在对特征通道时空分组的基础上,对时间组采用权重共享约束的方式实现协作特征学习。此外,本文提出的SGCN还引入了一个平方池化模块以强化对时间运动信息的学习。SGCN网络具有以下三个优点:(1)SGCN网络基于通道特征分组,可以分别有效地对时间与空间信息建模。(2)本模型使用3个2D卷积代替3D卷积来协作学习时空特征,实现了参数的共享,在很大程度上节约了计算成本,减少了参数量,提高了模型的计算效率。(3)SGCN网络在时间分组加入了能量模型,以乘性特征增加特征相关性,通过平方池化操作学习时间运动关系特征,进一步提高SGCN网络在行为识别任务中的有效性。同时为了验证本文提出的SGCN网络的性能,本文在经典的视频行为识别数据库Something-Something V1和Something-Something V2上对其进行了训练和测试,并将其与一些目前主流的视频行为识别方法进行了对比。实验结果表明本文提出的SGCN网络可以取得较好的效果,算法性能总体上优于其他对比方法。
其他文献
阵列电化学生物传感器(Electrochemical Biosensor Array,EBA)凭借其选择性高、灵敏度高、分析速度快等优点受到广泛关注。微阵列电极作为换能元件,其对电化学传感器的性能起着关键作用,所以构建高性能电极材料成为当前研究热点。本文提出了一种将数字微镜器件(DMD)无掩膜多步光刻与电化学沉积相结合的技术,利用光刻系统压电平台(PZS)运动的高分辨率运动和DMD生成图案的灵活性
近年来,随着人工智能技术的不断突破与互联网技术的飞速发展,使越来越多的用户利用互联网技术进行在线学习,同时新冠疫情的爆发也促使在线教育平台拥有了更多的用户。在线教育平台使高质量的教育资源得以普及,尽管越来越多的教育家提倡个性化教育,但当前的教育模式仍由班级教学为主导。用户可以利用学习资源在老师和同学帮助下获取知识,群组推荐正适用于此类需求。尽管在线学习平台为学生带来了学习方式上的便利,但如何有效的
透明可拉伸多功能传感阵列在弯曲、拉伸等动态应变下可以感知多种刺激,发挥应变、压力和接近等传感功能,在透明智能电子皮肤、人机交互、智能机器人和假肢等领域展现出重要的应用前景。目前,由于材料性质和器件结构的限制,想实现透明可拉伸的多功能传感器面临如下挑战:1.需要传感器所有组件的材料(电极,敏感材料,封装材料等)都是透明且可拉伸的;2.需要区分不同功能的信号,以实现应变下传感的精确探测。针对以上问题,
三维人体姿态估计是计算机视觉领域的热门研究问题之一,其在人机交互、动画制作、视频监控等方面有着非常广阔的应用前景。本文主要研究面向自然场景的三维人体姿态估计问题,即对单视角自然场景图像计算其中目标人体各关节的三维坐标,从而恢复人体的三维姿态。目前对该问题的研究存在两大难点:第一,从单视角二维图像恢复三维人体姿态存在不准确性。单视角图像损失了大量的深度信息,使得从二维到三维的变换存在高度非线性;第二
近年来,随着移动网络和智能设备的发展,物联网得到了迅猛发展,日益增多的基于物联网的智能应用不断出现,高度互联的智能设备以及其产生的大量的交易数据引发了安全和隐私的关注。区块链作为新型分布式计算框架,具有去中心化,不可篡改,可追溯等特性,正在被广泛地应用于金融、电子取证、商品溯源等各种领域,在物联网领域区块链的应用刚刚开始。但是目前已有的包括比特币、以太坊、超级账本等在内的区块链平台计算开销大,这种
随着计算机视觉领域的快速发展,许多研究人员的关注焦点聚集于人体动作识别方向。该研究方向多运用视频分析的方法对人体动作进行识别,然而人体动作间灵活性高、差异性小,运用视频分析对人体动作类别进行准确识别仍面临诸多困难。随着视频获取设备的日益成熟,运动中的人体骨架信息越来越易于获取,且人体骨架信息对于光照、场地、遮挡等问题均具有一定的鲁棒性,因此基于视频的人体动作识别逐渐转为基于骨架的人体动作识别。人体
肺癌作为全球发病率、死亡率均位居前列的疾病,严重危害人类的健康,尽早发现与治疗是降低肺癌死亡率的重要手段。肺结节是肺癌的早期存在形态,及时诊断肺结节是提高肺癌患者治愈率的关键。CT技术是目前临床医学中应用最为广泛的诊疗手段,但CT诊疗产生的数据以指数倍形式迅速增长。因此,医生人工观察CT图像进行疾病诊断需要巨大的工作量,效率较低,且诊断结果通常带有较强的主观性。为提高医生的诊断效率、减少医生的工作
显著性检测是指从图片中找到最“引人注意”的一个或若干个物体的过程,其本质上是一种心理学过程的计算机重现。深度卷积神经网络技术在当前图形图像各领域的应用中展现了不可思议的能力,在显著性检测领域也不例外。目前,最先进的方法都是基于深度卷积神经网络技术研发的。这其中,Lee等人提出的ELD(Encoded Low Level Distance)算法将底层特征和高层特征统一编码,统一训练,是一种非常值得借
三维人体姿态估计是计算机视觉领域中的热门课题。三维人体姿态估计可以作为人体姿态识别、人体跟踪、行为识别等任务的基础,同时在高级人机交互,智能监控等领域拥有广泛的应用前景。由于从单目图像预测三维空间信息是十分困难的,并且姿态图像存在着遮挡和视差等问题,使其非常具有挑战性。随着深度学习在多领域的成功应用,具有强大学习能力的深度神经网络也逐渐成为三维人体姿态估计任务的最佳选择。本文将基于深度学习,采用分
近年来,随着定位、跟踪技术的快速发展,诸如GPS等位置感知设备得到了广泛的应用,使得车辆、人们的移动轨迹能够被精确地记录,通过对轨迹数据的有效分析可以了解一个城市的交通状况及城市中人群的移动规律,对于城市管理者的决策具有重要意义。然而,由于轨迹数据具有时空特性,并且通常数据规模很大。因此,如何有效地发挥轨迹时空连续性,探索数据中隐藏的时空规律是一项巨大的挑战。本文基于成都市出租车真实轨迹数据,研究