基于数据增强和属性辅助的行人重识别研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:liongliong540
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着监控摄像头的普及和城市安防的需要,行人重识别成为了计算机视觉领域越来越重要研究的课题。其潜在的应用领域也越来越宽广,在刑侦破案、智慧城市、无人超市等领域有着广泛的应用前景。早期的行人重识别技术是通过手工提取行人图像的特征,如今基于深度学习的方法在行人重识别技术上应用已成为研究的热点。针对行人重识别,相关研究者已经做了很多的工作,然而依然存在一些需要解决的问题。一方面行人重识别数据采集困难,数据的标注需要额外的人工成本。现有的行人重识别数据集规模都较小,造成模型的泛化能力不足,容易出现过拟合现象。另一方面,大多数行人重识别算法直接对整张图片作特征提取,往往导致网络忽略一些局部的细节信息,虽然有一些图像分块的工作,但是没有直接利用细粒度属性标签信息。针对以上问题,本文从行人图像数据的增强和行人属性细粒度信息辅助行人重识别网络模型为立脚点,分别作了研究。本文的研究内容及工作重点如下:(1)研究了像素和空间变换的传统数据增强方法对行人重识别算法的影响。对行人图片作随机水平翻转、随机裁剪、随机擦除以及组合增强的处理。然后评估训练出的网络模型性能。实验在Market1501和Duke MTMC-re ID数据集上进行,通过和基线网络的比较发现,经数据增强处理后训练出的网络模型的rank-1和m AP两个评价指标均有所提升。(2)提出了基于半监督学习自训练的网络模型和带预测概率的标签平滑算法(Label Smoothing Regularization with Prediction,LSRP)。为使用无标签图片和有标签数据共同优化网络模型,将自训练的思想应用在行人重识别网络中。实验采用DCGAN模型生成42000张行人图片。将这些图片作为原数据集训练出的模型的输入,然后将网络的预测结果通过标签平滑算法LSRP中得到生成图片的标签。在多次训练过程中,伪标签和网络模型相互促进。通过和LSRO、One-hot标签分布对比,证明所提算法的优势。(3)提出了联合PCB和行人属性信息的行人重识别方法(PCB with Attribute,PCBA)和带有属性划分(Pedestrian Attribute Division,PAD)的PCB-PAD算法。为充分利用行人图像的局部信息,使用行人属性识别基线网络训练一个模型,给CUHK03数据集标注属性标签。PCBA对每个局部水平切割的特征向量进行行人所有属性的多分类学习和行人ID学习。PCB-PAD算法把行人属性按照空间位置进行划分,在每一局部特征上预测相应的属性,特别地,PCB-PAD增加了对全局的特征向量进行全局属性的学习和ID学习。通过对比基线网络、ARP、PCB方法的rank-1排名和m AP指标,表明本文提出的PCBA和PCB-PAD算法的网络性能较优。(4)设计了行人重识别应用系统,采集校园实际场景的行人视频,并构建了一个人工标注的SCU-Re ID校内行人数据集进行实验。
其他文献
图像超分辨率是计算机视觉与图像处理领域的重要研究课题之一,在视频监控、医学影像、卫星图像等多个方面有着广泛应用。近年来,基于深度学习的单图超分辨率技术得到快速发展,但是为了不断提升高分辨率图像的重建效果,超分辨率方法的网络层数不断增加,使网络的参数量和计算量过高,导致这些方法难以应用于计算资源与存储资源有限的设备上。本文从控制超分辨率算法的计算量、参数量出发研究轻量级单图超分辨率算法,并将其应用于
中国画作为中华民族优秀传统文化的重要组成部分,在漫长的发展过程中形成了独具特色的艺术表现形式。因此,在中国画教学中,应多融入传统文化,这不仅是中国画教学活动开展的基本要求,同时还是传统文化传承发展的重要途径。本文在明确传统文化融入中国画教学意义的基础上,分析了教学活动开展过程中面临的困境,同时结合教学活动开展实际,提出了完善融入路径,以期能为中国画教学改革提供一定的理论参考。
图像分割是计算机视觉领域中一个非常重要的研究课题。图像分割通常用于定位图像中的物体和边界,其目的是简化或改变图像的表示形式,使得图像更容易理解和分析,在目标识别、运动物体跟踪、生物医学图像分析等领域中都有广泛的运用。图像分割的一个核心挑战是由成像设备、照明条件和复杂背景引起的图像灰度不均匀性。虽然目前已有的算法可以很好地分割出灰度均匀图像中的目标物体,但是对灰度不均匀场景则会出现较大误差。由于灰度
循证医学是一种遵循证据的医学实践方式,要求医学从业者慎重、准确且明智地应用当前最好的研究证据来制定患者的治疗方案。在循证医学中,常使用PICO框架描述临床问题。PICO框架将临床问题分解为四个元素:参与者/问题(Population/Problem,P)、干预(Intervention,I)、比较(Construction,C)和结果(Outcome,O)。医学从业者为临床问题筛选研究证据时,希望
随着信息技术的不断普及,越来越多的案件需要使用到电子证据,从网络诽谤到电信诈骗等,电子证据成为破解此类案件的关键。然而电子证据极具脆弱性,十分容易被损坏。传统的电子证据存取证系统存在中心化存储、数据流向不透明、自动化程度不高等问题。并且普通大众缺乏举证能力,遭遇侵权时往往不知如何存证、取证,因为不规范的证据保全可能会导致证据失去法律效力。区块链技术具备数据不可更改、多方维护等特点,有效地解决了电子
阴影技术作为重要的渲染技术之一,在帮助人们理解三维空间中物体的几何形状、大小、及相对位置起着至关重要的作用。由于符号距离场具有能够表达三维空间场景信息的特点被广泛应用于渲染高质量的软阴影效果。然而,现有利用符号距离场进行软阴影渲染的算法由于遮挡率估计不准确,造成半影收缩等问题。针对该问题,在充分研究一阶符号距离场特点的基础上,本文提出了一种基于一阶符号距离场的软阴影改进算法。其基本思想是,通过一阶
随着工业大数据规模的不断扩张,面向工业场景下的大数据智能分析应用逐渐兴起。但在实际应用中,工业数据存在规模量大、分布不集中、结构复杂且类型多样的问题,且由于企业数据分布不均和数据管理能力不佳等因素,使企业在进行所需的数据分析时受到阻碍。因此,如何进一步挖掘工业数据价值成为关注焦点。通过构建数据共享(Data Sharing,DS)平台,加强优势企业的合作和数据开放,可以有效解决企业间的数据孤岛问题
人脸识别技术是计算机视觉领域的一个重要研究方向,有着无接触性、信息采集成本低、自动化程度高等优势,在越来越多的实际场景中都得到了应用。目前为止对于限制场景下的人脸识别技术已经较为成熟,但是对于非限制场景下的人脸识别仍然是一项挑战。其中,复杂的光照条件使得人脸图像出现大范围阴影,图像质量变差;图像中的人脸存在平面旋转、位置偏移、小幅度姿态变化引起识别精度降低;如何全面地利用人脸图像的信息将多种特征进
立体视觉是通过模拟人类的双目视觉,获取环境深度信息的任务,它的原理主要是通过计算成像和数学建模预测物体在三维空间中的深度,以达到还原场景三维信息的目的。立体视觉作为计算机视觉当下最为火热的研究方向之一,被广泛应用在自动驾驶、虚拟现实、增强现实、三维测量与三维重建等热门领域。在计算机立体视觉中,最为常用的方法是双目立体视觉。双目立体视觉的难点在于如何正确建立双目图像之间所有像素的一对一的映射关系。因
精准农业以物联网为基础,通过部署传感器和研究人工智能技术来控制果实/农作物的生产过程,主要包括:农业产量估测、农作物智能化病害检测以及生长过程品质监控等,以更低的成本提升果实产量等级,经济效益更大化。当前,针对葡萄视觉产量预估的工作主要是从基于检测的葡萄串检测和基于回归的葡萄颗粒计数这两个方面进行开展的。然而,这两类方法相对独立,且覆盖场景有限,并伴随着较大的产量预估误差。对此,提出了串-粒融合的