论文部分内容阅读
动作识别与时序分割是一项十分重要的视频理解任务,在视频监控、视频检索、自动驾驶等领域有着广泛应用.其目标不仅是识别一段未修剪视频中包含哪些动作,还要预测每个动作在视频中的起始时间与结束时间.现有的动作识别算法大多是基于每一帧图像标注的强监督学习,而视频的详细标注需要消耗大量的人力物力.为了减少视频标注的工作量,本文在弱监督的基础上对动作识别与时序分割问题展开研究.本文重点研究了两种机器学习算法以及当前的行为识别算法,并将机器学习与行为识别算法结合改进,最终提高动作分类与时序分割精度.本文主要内容及创新包括:1.在视频的动作识别与时序分割中,一种常用的方法是仿照基于图像的目标检测任务,对动作目标生成时间建议,然后对时间建议片段进行学习.然而生成建议的学习方法会占用大量计算资源,并且生成建议的方法不能在监控视频中进行实时的识别与定位.本文采取将视频进行先分段再识别的方法,也就是将视频分割为大小相同的片段进行特征提取,然后对特征图进行弱监督的分类学习.本文研究不需要提供每段视频的动作标签,因此大大减少了标注的工作量.2.提出一种结合自步学习的动作识别与时序分割算法.当前的动作识别与定位算法过程通常是随机选择样本,根据当前网络参数对视频进行预测,然后根据预测结果再由定义的损失函数计算梯度,进而更新网络参数.然而,这种方法通常需要很强的分类器,因为弱的分类器会依赖于初始网络参数.分类器在学习过程中通常是越“简单”的样本越容易获得分类器的“认可”,其稳定性也越好.本文采用自步学习方法模拟人的认知机理由“简单”到“复杂”的学习过程进行弱监督的动作时序定位研究.3.提出一种特征变换的动作识别与时序分割方法.在视频表示方面的研究中,基于自监督的方法已经取得成功,但是,在弱监督的动作识别与定位的任务中结合自监督的方法还未有过研究.本文通过将视频特征进行翻转、对称等转换操作,并将转换操作作为标签提供给神经网络做特征变换的自监督学习.然后将学习的网络参数作为预训练模型加载到分类网络进行弱监督的动作识别与时序定位学习.4.本文在人类活动的Thumos14数据集上对提出的两种算法进行了实验验证.在基于自步学习的方法中,本文算法与当前先进算法比较,动作分割定位的精度提高了1%左右,动作识别的精度提高了0.2%.而在结合特征变换的算法中,本文算法不仅在动作定位精度上提高了3%左右,还在动作识别方面将精度提高了1.3%.