面向视觉感知理解的目标检测、跟踪与识别方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xxuhhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,视频与图像等包含视觉信息的数据呈指数级增长。在大数据的时代背景下,如何从海量视觉数据中提取与表示具有语义信息的视觉目标,进而实现对视觉内容的感知和理解,在人工智能与计算机视觉领域的研究中具有十分重要的意义。本文面向视觉信息中语义目标的感知和理解,研究其中涉及到的目标检测、跟踪与识别等关键技术路线。首先对视频或图像中感兴趣的主体目标物体通过检测和跟踪进行提取,紧接着识别目标物体的语义内容,然后对目标个体进行结构化的表达,最终达到真正的视觉语义理解。在此研究路线下,本文的主要研究内容与贡献如下:1.针对感兴趣语义目标的检测问题,提出了基于多任务学习的显著目标检测方法。为了解决如何用数据驱动的方式建模显著目标的语义属性的关键问题,本文提出深度多任务学习模型来检测感兴趣语义目标。提出的算法首次将多任务的深度学习应用到显著目标的感知任务中,将符合人类直觉的显著目标特性与语义目标特性相融合,最终在语义目标的检测任务上取得了比较显著的结果。2.针对时空上下文的目标跟踪问题,提出了基于多任务结构化学习的目标跟踪方法。为了将整个视频内的目标内容进行有效地提取,并且解决基于关键点跟踪中目标表观变化的多样性问题,本文首次提出了利用时空上下文信息的结构化输出的多目标表观模型,建模并有效地捕获了时空结构信息,进而得到了鲁棒的目标跟踪结果。3.针对深度网络模型的目标分类识别问题,设计了全新的深度卷积神经网络模型结构。对目标物体的语义内容进行识别问题中,如何设计具备较强表达能力的识别模型是一个关键问题。为此,本文提出基于交互关联映射的深度卷积神经网络,致力于提高视觉语义理解中表达模型的能力。提出的网络模型通过一个交互关联映射将神经网络分支进行交互关联,在网络的前向和后向传播当中优化信息流动,减轻深度神经网络的训练难度,从而得到表达能力更好的目标识别模型。4.针对结构化表达的目标个体识别问题,提出基于对齐结构化表达的行人个体识别方法。目标识别仅仅停留在类别认知的层次,依然不能支持更精准的语义目标实体表达和搜索的需求。在此关键技术研究上,本文以最常见的行人目标作为切入点,研究基于深度对齐结构化表达的行人个体识别方法。该方法在注意力模型的启发下,提取更加鲁棒的对齐结构化表达,更精准地表达和理解语义目标实体。
其他文献
胃癌是世界第二常见癌,且胃癌的发病率居于各种癌症的第一位,因而对于胃癌的防治成为全球医疗机构的重要工作,胃癌的发生是一个多因素、多步骤的发展过程,期间经历多次细胞转
随着计算机网络技术的不断发展,造成现有网络协议种类繁多、网络架构复杂且难以维护。流媒体、视频会议、云服务等新型网络业务的广泛应用,使得人们对网络服务质量要求越来越
随着人-机交互技术的日益发展,语音识别已经成为当前人工智能与模式识别领域研究的重点。语音是人类最重要和最方便的信息传递方式,也是实现人-机交互的最直接途径之一。让机
信息社会,为学校改革提供了新思路,人们越来越清晰意识到改进传统的教学方式,探究适应信息化社会的教学方法在推动教育改革中起到关键作用。当前信息技术课堂,还明显存在着“
政治信任是公民与政府间的一种互动,它涉及公民、政府与特定价值之间的特定关系。影响政治信任的因素众多,我们可以将政治信任的影响因素分为三个层次,即个体层次、社会层次
三岛由纪夫的《金阁寺》是世界文学史上最著名的小说之一,许多翻译家进行过译介,本文研究的是由林少华翻译,青岛出版社2010年出版的汉译本。上世纪70年代,西方的译学观念发生
35kV直配电网是以35kV高压输入负荷中心,电压由35kV变为0.4kV直接供负荷的供电方式。经计算,35kV直配线路的损耗在同长度、同截面、同功率的条件下仅为6kV配电线路损耗的1/34,又因
明初著名理学教育家吴康斋的道德修养理论颇具特色,它是传统道德修养论向启蒙思想的过渡,改变了传统的道德修养方向,使道德修养工夫由传统的向外用功变为向内用功,即在心上用
为了提升高速开关阀(HSV)的动态性能,降低温升与能耗,提出基于电流反馈的高速开关阀3电压控制策略.回路中的电流能够反映高速开关阀的工作状态,通过外部的数字信号及回路中的
随着农业产业布局逐渐合理,柑桔市场从最初的暴利到现在趋于饱和。本文从成渝地区柑桔产业的生产管理问题切入,结合文献资料和154份调查问卷,对两地发展情况进行对比研究,得
期刊