弱监督下视频动作分割与识别算法研究

来源 :烟台大学 | 被引量 : 0次 | 上传用户:weiqier1110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动作识别与时序分割是一项十分重要的视频理解任务,在视频监控、视频检索、自动驾驶等领域有着广泛应用.其目标不仅是识别一段未修剪视频中包含哪些动作,还要预测每个动作在视频中的起始时间与结束时间.现有的动作识别算法大多是基于每一帧图像标注的强监督学习,而视频的详细标注需要消耗大量的人力物力.为了减少视频标注的工作量,本文在弱监督的基础上对动作识别与时序分割问题展开研究.本文重点研究了两种机器学习算法以及当前的行为识别算法,并将机器学习与行为识别算法结合改进,最终提高动作分类与时序分割精度.本文主要内容及创新包括:1.在视频的动作识别与时序分割中,一种常用的方法是仿照基于图像的目标检测任务,对动作目标生成时间建议,然后对时间建议片段进行学习.然而生成建议的学习方法会占用大量计算资源,并且生成建议的方法不能在监控视频中进行实时的识别与定位.本文采取将视频进行先分段再识别的方法,也就是将视频分割为大小相同的片段进行特征提取,然后对特征图进行弱监督的分类学习.本文研究不需要提供每段视频的动作标签,因此大大减少了标注的工作量.2.提出一种结合自步学习的动作识别与时序分割算法.当前的动作识别与定位算法过程通常是随机选择样本,根据当前网络参数对视频进行预测,然后根据预测结果再由定义的损失函数计算梯度,进而更新网络参数.然而,这种方法通常需要很强的分类器,因为弱的分类器会依赖于初始网络参数.分类器在学习过程中通常是越“简单”的样本越容易获得分类器的“认可”,其稳定性也越好.本文采用自步学习方法模拟人的认知机理由“简单”到“复杂”的学习过程进行弱监督的动作时序定位研究.3.提出一种特征变换的动作识别与时序分割方法.在视频表示方面的研究中,基于自监督的方法已经取得成功,但是,在弱监督的动作识别与定位的任务中结合自监督的方法还未有过研究.本文通过将视频特征进行翻转、对称等转换操作,并将转换操作作为标签提供给神经网络做特征变换的自监督学习.然后将学习的网络参数作为预训练模型加载到分类网络进行弱监督的动作识别与时序定位学习.4.本文在人类活动的Thumos14数据集上对提出的两种算法进行了实验验证.在基于自步学习的方法中,本文算法与当前先进算法比较,动作分割定位的精度提高了1%左右,动作识别的精度提高了0.2%.而在结合特征变换的算法中,本文算法不仅在动作定位精度上提高了3%左右,还在动作识别方面将精度提高了1.3%.
其他文献
生活水平的提高使得人们在温饱之余开始关注食品的质量问题,这开始促使食品生产厂家对产品质量加强管控。喷码标记作为产品质量追踪最为关键的信息在各行各业已经得到了广泛
随着人口过度增长、能源危机和环境污染等问题进一步加剧,科学家们需要致力于研究开发更高效的催化剂材料来缓解人们在生活和工业生产中所遇到的困难。一氧化碳(CO)是主要的大
自20世纪80年代开始,复杂系统的研究逐渐兴起,它被认为是解决各个领域研究面临的困难的一个重要突破点。而复杂网络是研究复杂系统的一个重要工具,如物流运输、道路规划、社交网络、生物研究等问题在研究的过程中,都可以抽象成由边和顶点组成的复杂网络,借助于复杂网络的相关技术对其进行研究。但系统中基本单元常常达到成千上万甚至是数以亿计,这就使得复杂网络的研究不得不借助于高效的计算工具来解决实时的、规模足够大
近年来,视频智能监控技术得到了快速发展,己被广泛的应用于社会生产生活的各个领域。在煤炭工业中视频智能监控技术也得到应用,尤其是在矿井安全生产方面,这对于及时发现和预
超级电容器由于具有高功率密度、快速充放电特性和长循环稳定性而受到越来越多的关注。为了扩宽超级电容器的市场应用范围,研究人员一直通过开发新颖的电极材料来提高超级电
白光发光二极管(WLEDs)是近年来广泛使用的固态照明光源,具有节能,环保等优点。在众多合成WLEDs的方法中,荧光粉转换型白光发光二极管(pc-WLEDs)是制备WLEDs的一种主流方法。广泛
硫是一种燃料中常见的污染物,在催化过程中通常会导致贵金属催化剂中毒失活。铂族金属是价格昂贵的不可再生资源,在苛刻的化学反应环境中此类催化剂还存在易溶解性、易腐蚀性
现实场景中,物体暴露在自然光下通常会发生镜面反射和漫反射,当镜面反射较为强烈时,物体表面就会呈现出高光现象,严重时在数字图像中表现为饱和像素。高光在计算机视觉的任务
本文第二部分通过两步阳极氧化法成功制备了管长分别为4、6和7μm的TiO2纳米管阵列(TiO2 nanotube array,TNA)。此后,使用这些具有不同管长的TNA制备了具有Au/TNA/Au结构的紫外
为了方便阅读,大多数文档的前景文字与背景区域都特意的以高对比度的方式呈现。图像的二值化是文本识别中一个十分重要的步骤。当涉及到退化文档图像的处理时,图像的二值化就