【摘 要】
:
目标检测和视觉跟踪在计算机视觉领域是两个非常重要的任务,在生活当中也具有广泛的应用,比如智能驾驶中的物体检测与跟踪、监控视频的自动化监测等。借助于深度学习的技术,
论文部分内容阅读
目标检测和视觉跟踪在计算机视觉领域是两个非常重要的任务,在生活当中也具有广泛的应用,比如智能驾驶中的物体检测与跟踪、监控视频的自动化监测等。借助于深度学习的技术,具有大量已标注数据的目标检测任务已经取得了非常好的结果,但在某些任务中无法满足这样的条件,比如无法获得太多的稀有动植物的图片。在这样的条件下,单样本的目标检测仍处于探索阶段。数据量少、同类别中的个体多样性、视角多样性以及环境因素等都给单样本的目标检测带来了困难。而视觉跟踪和单目标检测任务又有相似之处,二者都具有单样本学习的共性,都是从单张图片中的物体获取特征。但任务目标有所不同,前者更关注同类的多个物体,后者则关注不同帧中的同一个物体。现有的跟踪框架多用互关系计算类内物体的相似性,不太关注类间物体的特征比较。针对以上问题,本文通过研究单样本学习,并结合目标检测和视觉跟踪各自的特点进行框架设计,有效地提高单样本检测和单目标跟踪两种任务的精度。第一,当给定一张样例图片,而新的图片当中仅存在少量需要检测的物体时(存在其他类别物体的干扰),本文设计了一个全新的框架对同类物体进行识别和定位。该框架结合传统特征和深度学习的特点,分别进行轮廓上和语义上的物体相似性比较。再根据检测出的结果进行二次检测的优化,用来得到最终的结果。该方法在Pascal VOC,UIUC CAR和Caltech 101数据集上都取得了不错的效果。第二,对于图片当中包含多个需要检测的物体且干扰较多,情况复杂时,本文提出了两阶段平行比较网络(TSPCN)来加快检测速度,提高物体检测的准确度。通过特征金字塔来提取不同大小的proposal(即可能存在目标物体的包围盒),并将不同proposal的语义特征进行通道维度上的叠加来进行相似性比较和边框回归。针对单样本检测任务的特殊性重新设计分类和回归方法,使得语义信息得到更好的利用。该方法在Pascal VOC,UIUC CAR和Caltech 101数据集上取得了很好的结果,处理复杂图片的能力更强。第三,本文通过改进现有的视觉追踪网络结构,结合多层语义特征,从类间和类内两个方向比较跟踪物体的相似性,在没有损失追踪效率的前提下提高了追踪的精度。综上所述,本文通过对单样本学习的研究,结合目标检测和视觉跟踪各自的特点,提出了新的单样本检测框架并改进了现有的视觉跟踪网络。在两类任务中都取得了较好的结果。
其他文献
随着集成电路技术节点逐渐逼近原子尺度,集成电路的发展逐渐进入到了物理尺度上的极限,与此同时,芯片的性能也逐渐逼近了极限。借鉴生物大脑的结构和工作方式,发展类脑芯片技
随着移动机器人技术的不断发展,其核心之一的SLAM技术也取得了很大的进步,以激光传感器为主的系统已相对完善,以视觉传感器为主的系统性能得到了快速提升。随着计算机速度的
在计算机视觉领域,人体姿态估计是一项基于图像或视频定位人的关节点的任务。人体姿态估计是大量重要计算机视觉任务的基础和前置任务,如动作识别、行人重定位、人机交互、行
通过构筑纳米复合界面可以调控材料的表面形貌,增大复合结构的比表面积,以便于更多的气体分子扩散到材料的表面及内部,以提高气敏性能;同时费米能级的移动会导致势垒的出现,从而对耗尽层的宽度和带隙的结构具有调节作用,改善纳米复合结构的气敏性能。二硫化钼作为一种典型的二维材料,是一种天然的n型半导体,同时具有大量的悬空键和接触位点(硫缺陷、空位和边缘触点),是目前最有前景的气敏材料之一。因此,本文构筑了三种
在真核细胞中,有许多丝氨酸/苏氨酸蛋白激酶对于细胞骨架、膜组织、胞内信号和囊泡运输具有很重要的作用。在裂殖酵母(Schizosaccharomyces pombe)中,这已经被很好地证明。除了
随着社会的信息化与网络化,实际系统和信号的复杂程度日益增加。越来越多的系统呈现多变量、多维度等特性。因此,多维系统理论成为了控制界的研究热点。二维(2-D)系统作为一
随着电子信息技术的的飞速发展,以便携式、可穿戴电子设备为代表的消费电子市场正日益壮大,开发柔性、可集成、微型化的储能器件成为科研工作者的研究重点。尽管现已报道了许多可芯片集成的微型储能器件,但受限于高性能活性电极材料和先进微型器件制造技术的开发,微型储能器件在电极材料、电解液、制备技术上仍具有更优化的选择。二氧化锰作为储能器件的电极材料,凭借着储量丰富、安全无毒、环境友好、高理论比容量的优势长期以
随着21世纪经济全球化和信息全球化的发展,当今世界已然成为了注意力经济的新时代。在这一背景下,形象问题受到了空前的关注,各区域政府在谋求发展之际将区域形象放在了首要
光学纯扁桃酸及其衍生物是合成多种医药中间体的关键手性砌块,如(R)-扁桃酸是一种重要的精细化工中间体和手性药物前体,被广泛应用于制药及化工行业;腈水解酶是生物催化法制备(R)-扁桃酸的一种重要工业用酶,因其具有原料廉价和100%理论产率等优点,有很大的工业应用潜力。本论文将nitA的同源模型与底物扁桃腈进行分子对接,选取位于活性中心周围的两个残基位点(Thr132,Ser190)分别进行理性设计的
随着社交多媒体信息的迅速增长,用户获取感兴趣信息的难度越来越大,个性化的社交推荐技术变得尤为迫切。在社交多媒体计算模型的研究中,多种模态信息的“语义鸿沟”以及信息过载带来的“意图鸿沟”一直是困扰社交多媒体技术发展的瓶颈问题。为减轻语义鸿沟与意图鸿沟对社交多媒体计算的阻碍,本论文旨在研究社交多媒体环境下,视觉信息语义鸿沟与多模态信息协同关系在社交推荐中的作用,通过挖掘社交多媒体信息间的隐含关联,建立