论文部分内容阅读
随着互联网技术的快速发展,视频与图像等包含视觉信息的数据呈指数级增长。在大数据的时代背景下,如何从海量视觉数据中提取与表示具有语义信息的视觉目标,进而实现对视觉内容的感知和理解,在人工智能与计算机视觉领域的研究中具有十分重要的意义。本文面向视觉信息中语义目标的感知和理解,研究其中涉及到的目标检测、跟踪与识别等关键技术路线。首先对视频或图像中感兴趣的主体目标物体通过检测和跟踪进行提取,紧接着识别目标物体的语义内容,然后对目标个体进行结构化的表达,最终达到真正的视觉语义理解。在此研究路线下,本文的主要研究内容与贡献如下:1.针对感兴趣语义目标的检测问题,提出了基于多任务学习的显著目标检测方法。为了解决如何用数据驱动的方式建模显著目标的语义属性的关键问题,本文提出深度多任务学习模型来检测感兴趣语义目标。提出的算法首次将多任务的深度学习应用到显著目标的感知任务中,将符合人类直觉的显著目标特性与语义目标特性相融合,最终在语义目标的检测任务上取得了比较显著的结果。2.针对时空上下文的目标跟踪问题,提出了基于多任务结构化学习的目标跟踪方法。为了将整个视频内的目标内容进行有效地提取,并且解决基于关键点跟踪中目标表观变化的多样性问题,本文首次提出了利用时空上下文信息的结构化输出的多目标表观模型,建模并有效地捕获了时空结构信息,进而得到了鲁棒的目标跟踪结果。3.针对深度网络模型的目标分类识别问题,设计了全新的深度卷积神经网络模型结构。对目标物体的语义内容进行识别问题中,如何设计具备较强表达能力的识别模型是一个关键问题。为此,本文提出基于交互关联映射的深度卷积神经网络,致力于提高视觉语义理解中表达模型的能力。提出的网络模型通过一个交互关联映射将神经网络分支进行交互关联,在网络的前向和后向传播当中优化信息流动,减轻深度神经网络的训练难度,从而得到表达能力更好的目标识别模型。4.针对结构化表达的目标个体识别问题,提出基于对齐结构化表达的行人个体识别方法。目标识别仅仅停留在类别认知的层次,依然不能支持更精准的语义目标实体表达和搜索的需求。在此关键技术研究上,本文以最常见的行人目标作为切入点,研究基于深度对齐结构化表达的行人个体识别方法。该方法在注意力模型的启发下,提取更加鲁棒的对齐结构化表达,更精准地表达和理解语义目标实体。