论文部分内容阅读
目标跟踪任务是计算机视觉中一个非常重要的研究课题,作为一门交叉了图像处理,信号处理,机器学习,最优化理论,人工智能等多方向的综合学科,近年来在学术界和工业界得到了广泛研究,但是由于目标跟踪算法本身的实现难度高,高质量数据缺失,取得的进展要慢于目标检测,语义分割等更加基础的视觉任务。目标跟踪技术在民用和国防领域应用广泛,是视频监控,城市安防,医学诊断,无人驾驶等概念的关键技术之一。基于深度神经网络的检测式跟踪算法MDNet,VITAL作为深度学习技术在目标跟踪领域的典型应用,在主流基准测试数据集上取得了非常优秀的跟踪效果,但是跟踪速度非常慢,远远达不到实时性要求。另一方面,VITAL这样的传统检测式跟踪算法是定义在category-level的,即网络模型只能检测出目标所属的类别,但是目标跟踪问题本身是定义在instance-level的,在视频序列第一帧中使用GT框标注的目标是某种特定类型的一个物体,背景中可能会存在干扰项,比如不同域中的前景目标可能是同一类型的相似物体,从而造成跟踪漂移,导致跟踪失败。针对这些问题,本文提出了两个改进方案:(1)提出了一种将RoIAlign层应用于基于对抗学习的目标跟踪框架(VITAL)的思路,通过RoIAlign层来从特征图中提取目标候选,加速特征提取过程,在保证跟踪精确度的同时,有效地提高了跟踪算法的速度。(2)为了保证网络模型有能力在instance-level做判别,将跟踪算法的损失函数改为实例嵌入损失函数,实例嵌入损失函数将不同域的前景目标在共享特征空间中拉开距离,有效提高了分类器的判别能力。总的来说,本文以基于对抗学习的目标跟踪框架VITAL为基础,改进了特征提取过程,根据跟踪任务的特点重新选择了损失函数,设计一个新的跟踪算法FasterVITAL,并在三个主流基准测试数据集OTB-2013,OTB-2015,TempleColor-128上进行测试,实验结果表明FasterVITAL网络模型在跟踪准确度方面取得了不错的成绩,而在跟踪速度方面,帧率达到了16FPS,较VITAL算法提高了大约10倍。