基于多任务学习的行人检索关键问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:sz_ydz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检索是可以从原始视频帧中直接对要查询的行人进行定位和识别的技术。一个性能出色的行人检索系统可以省去行人检测的环节,极大地降低行人检索在生产生活中应用和部署的难度,为打造智慧城市、增强城市安全、构建智慧生活提供动力,具有重要的使用价值和现实意义。将行人检测和行人识别在统一的架构里建模,并利用深度学习强大的数据拟合能力来训练行人检索系统是当前研究的主要方法。然而,目前的行人检索算法依然存在检测框不准确和识别效果低下的问题。同时,行人检索算法在离开训练集后算法性能急剧下降的问题也在阻碍行人检索在实际中的大规模落地和部署。为了提高行人检索算法的识别准确率,本文提出了基于多任务学习的行人检索系统。该方法使用特征金字塔来构建骨干网络,为检测提供多尺度特征,使得模型可以检测尺度更丰富的目标。同时本文提出使用多任务损失函数来训练行人检索模型,使模型具有从多种不同的角度学习的能力,从而生成更具鉴别力的特征表示。在两个大规模行人检索数据集上的实验表明,本文提出的多任务行人检索算法可以同时提高检测框和行人识别的精度,在CUHK-SYSU和PRW上的m AP准确率和Top-1准确率均有提升,充分验证了多任务行人检索算法的有效性。同时,针对行人检索在算法落地过程中性能下降的问题,本文提出利用自相似聚类算法让模型在目标数据集上以无监督的方式学习,继续挖掘目标数据集中样本之间的相似性。通过对预训练模型提取的特征进行聚类,为目标数据样本生成伪标签,并使用带有伪标签的数据集来让模型在目标数据集上继续学习。通过利用两个行人检索数据集互相迁移,实验结果表明CUHK-SYSU和PRW预训练模型在互相迁移时,m AP和Top-1准确率均有提升,同时多个可视化结果也证明自相似聚类可以优化特征在高维空间中的分布,充分验证了自相似聚类算法可以有效提高模型在目标数据集上的表现。
其他文献
随着当今人类生活走向智能化和现代化,软件已经成为了影响生活至关重要的因素。软件缺陷预测(Software defect prediction,SDP)辅助开发和测试人员提前发现项目中潜在的缺陷,并合理分配资源,提高了开发过程的效率并保障了软件的可靠性。传统的软件缺陷预测模型,以专家设计的特定度量元(如:代码行数、对象的耦合程度等)作为软件的特征,分析并预测软件的缺陷情况。一方面,依据专家经验设计出
随着城市中车辆数量的不断增多,交管部门对车辆交通进行精细化管理的要求也日益迫切,而掌握车辆的出行行为特征是能够实行精细化管理的重要前提。车辆活动的规律性是车辆的重要行为特征之一,对提高车辆交通管理水平有重要参考价值。基于城市智能交通卡口设备可以获取到大量的历史行车轨迹数据,研究如何挖掘轨迹数据中潜在的车辆出行模式,对解决城市交通拥堵、确保交通安全畅通具有重大意义。而车辆历史行车轨迹的混乱程度可以刻
视觉振动检测技术因其特有的优势在机械制造、建筑物状态观测、人体健康监测以及地质勘探等检测任务中均有广泛的应用。而在一些复杂环境下,视频振动检测技术中的抗干扰能力有待加强。例如在图像采集的过程中不能保证拍摄相机的绝对静止,在一些带有相机抖动的视频中无法做到对振动信号的准确提取,给研究造成了极大的影响,导致振动频率检测出现误差,影响后续的判断与研究。针对相机运动干扰造成视频振动检测误差的问题,本文做了
边界表示(Boundary Representation,BREP)与构造实体几何表示(Constructive Solid Geometry,CSG)是两种主流实体表示法。目前各种商用CAD系统广泛采用BREP表示法,也具有完善的建模方法,而如蒙特卡罗等科学计算程序则采用CSG表示法,但缺乏高效的建模手段。蒙特卡罗等计算领域希望借用商用CAD的完善建模方法,其关键是实现BREP→CSG转换。目前
随着信息化时代的到来,人们渴望计算机能够智能化地处理生活中遇到的各种问题。作为计算机视觉领域的重要课题之一,目标检测为其他高级视觉任务的实现提供了前提条件。目标检测是一个多任务学习的过程,结合深度学习能够快速地从复杂场景中获取目标物体的类别与位置。近些年来,目标检测技术日益成熟,已经广泛应用于日常生活安全、机器人导航、智能视频监控、交通场景检测及航天航空等领域。本文对基于anchor-free的目
机动车在人们日常出行活动中异常重要,也是智能交通系统的主要研究对象之一。近些年来,我国机动车保有量及道路交通量猛增,给交通管理部门的工作增加了极大的压力,同时也对智能交通技术的发展提出了更大的挑战,其中针对车辆型号的识别任务至关重要。然而车辆型号种类多,某些车型外观差异小,并且实际拍摄环境复杂多样,这些因素造成车型精细识别的难度大大提高。针对车型识别任务的研究,本文将视觉注意力机制与深度学习方法相
随着互联网的发展,现在数据越来越多样化并且复杂化。FCM算法对数据集有一定的局限性,通常在球状的类间分离明显,类内紧致的数据集中表现得较为理想。显然,不能很好的处理一些复杂情况。为此,本文我们提出了两个算法,视点驱动的子空间模糊C-均值算法(Viewpoint-driven subspace fuzzy c-means Algorithm,VSFCM)以及核子空间可能性C均值模糊聚类算法(KSPF
偏振敏感型生物可以通过探测偏振光来进行寻找猎物或栖息地等视觉任务,其偏振视觉机制对于现代偏振信息获取和处理技术具有重要借鉴意义。作为典型代表的螳螂虾,其复杂的复眼结构使其拥有多种偏振信息处理系统的可能,其丰富的三轴眼部运动存在潜在的自适应机制,且兼具偏振视觉与颜色视觉。本文从信息处理的角度,探究这一系列生物行为背后的机理,并受此启发设计了系列仿生方法。在目标与背景颜色相近等场景的实验中,本文方法能
超分辨率重建技术旨在从一幅或多幅低分辨率图像中重建出成像系统无法获取的高分辨率图像。该技术在医学成像、视频监控等领域有重要的应用价值,也为目标检测、人脸识别等视觉任务提供了辅助作用。近年来,基于卷积神经网络的超分辨率重建方法在重建质量和效率上都取得了很好的效果,但是基于深度卷积神经网络的重建方法具有参数量大、训练难度过高等缺点,轻量级重建方法仍未能在模型复杂度、重建效率和重建质量之间做出较好的平衡
随着居民生活水平的提高,人们对健康的监测也越发重视。其中心率(Heart Rate,HR)是反应生理信息的重要指标之一,监测心率及其变化对医疗诊断和疾病预防具有重要意义。现存的心率监测装置多为接触式的,如心电图(Electrocardiogram,ECG)监测、光电容积描记(Photo-plethysmography,PPG)监测等。这些监测方式通常需要特殊设备,测量成本较高,并且若长期佩戴,可能