基于深度学习的单模态和跨模态行人重识别技术研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:lialiaoliao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人重识别(ReID)是计算机视觉领域的一个重要研究方向,主要解决跨摄像机、跨场景下的行人识别与检索问题,可广泛应用于安防监控和刑事侦查等领域。然而监控环境下的图像易受到背景和光照等因素的干扰,摄像机也会因为夜晚光线不足而切换到红外模式,以上因素都给行人重识别带来了挑战。本文利用深度学习技术,对单模态和跨模态行人重识别问题展开研究,主要工作和创新点如下。(1)针对当前单模态行人重识别中网络结构复杂且准确率仍需提升的情况,在基准网络之上实施三个改进策略,提出一种仅使用全局特征的简单高效的网络模型:1)加入非局部注意力机制,以增强网络对行人本身的关注,减少图像背景和环境因素对行人特征的干扰,从而提升了特征的判别力;2)从度量学习的角度出发进行损失函数设计,引入元素加权的难样本采样三元组损失函数,其选择性放大了负样本与锚点间的距离,进而改善了行人特征空间分布;3)采用将高层网络的权重回滚到其初始训练权重的策略来对低层网络进行充分训练,使得低层网络包含的行人外观细节信息能更大程度为模型所用,从而提高了网络的识别效果。在公开数据集上的实验数据证明,本文提出的单模态行人重识别模型准确率高且网络结构简单。(2)针对当前跨模态行人重识别中红外图像与可见光图像差异较大导致识别率低的问题,提出一种多粒度跨模态行人重识别网络:1)将骨干网络Res Net50改为双流网络结构,分别提取两种模态的特征,再利用网络参数共享的方式,将多模态特定特征投射到模态共享的公共特征空间来学习共同特征;2)设计多粒度网络,利用不同级别的分支进行不同粒度的图像分块,让模型既能学习总体的全局特征也能关注到辨识力更强的局部特征;3)从度量学习的角度出发进行损失函数设计,引入基于异质中心的三元组损失函数,通过将锚点与其他样本的比较改为锚点中心与其他样本中心的比较来减少传统三元组损失的严格约束,使不同模态图像在同一特征空间中映射结果更好。在公开数据集上的实验结果表明,本文提出的跨模态行人重识别算法具有较高的准确率。(3)考虑到行人重识别技术的实际应用问题,在本文提出的行人重识别网络模型基础上设计并实现了简易的行人重识别测试系统。实验结果表明该系统能利用已经训练好的模型进行行人重识别,还能对识别结果进行可视化展示和评估,具有一定的实用价值。
其他文献
随着汽车保有量快速增长,随之而来的交通问题也日趋严重。自动驾驶作为一个有前景的解决方案,在迫切的社会需求和高度发展的人工智能技术共同催化下快速成长。近年来,强化学习在不同的控制决策任务中表现优异,已有研究将强化学习算法用于汽车自动驾驶控制,通过智能体与环境交互,并根据环境的反馈进行驾驶策略的学习。柔性演员评论家(Soft Actor-Critic,SAC)算法作为新颖的强化学习算法,引入了最大熵的
李清照是我国宋代的著名词人,作为艺术史上的一个重要人物,李清照作为婉约派词人的代表身份是不容置疑的,而在李清照跌宕起伏的一生中,多种因素也导致了她的诗词具有了豪放的一面。绕过李清照所擅长的婉约词,来探究李清照在婉约风格背后的豪放。通过李清照本人生平与其文本的共同分析,探究李清照在豪放词背后所表现出的个人性格以及时代特征。
网络嵌入,又称为网络表示学习,目标是为网络中的节点学习低维的向量表示。学习到的向量表示可以用于各种网络分析任务,例如节点分类、链接预测、节点聚类、网络对齐等。近年来,随着大量网络数据的产生,网络嵌入受到了越来越多的关注。根据学习节点表示时利用的网络数量,网络嵌入可以大致分为两类:单一网络情境下的网络嵌入与多网络情境下的网络嵌入。尽管已经有许多研究人员分别针对单一网络情境下的网络嵌入以及多网络情境下
随着新兴信息技术的高速发展,数据存储的规模表现出前所未有的增长速度。大数据环境下的数据不仅仅表现出数据规模急剧膨胀,同时也呈现出数据质量低下、价值密度稀疏的鲜明特征。此外,数据随时间的推移产生得快,变化得快,折旧得也快,数据流已成为大数据环境中一种主流的数据存在形式。因此,对大数据的采集及分析应是一个不断优化、持续更新的增量优化过程。海量高维、动态低质的数据导致数据挖掘与知识发现算法所需要的计算代
人脸作为直接、可靠的生物特征,被广泛应用于信息安全、社会公共安全、虚拟现实和增强现实等领域。人脸特征点检测不仅是许多人脸分析任务中至关重要的预处理步骤,也是图形学和计算机视觉领域的一个基本问题。尽管过去十年中二维人脸图像特征点定位技术快速发展,但二维图像对光照等环境因素并不鲁棒,而三维人脸可以较好地弥补这些不足,因此三维人脸特征点定位吸引了越来越多的关注。现有三维人脸特征点定位方法主要基于脸部特征
脉冲神经网络模仿生物采用脉冲进行信息的传递与处理,是类脑计算的重要研究内容,相比于传统的人工神经网络,它具有更高的生物可解释性、更强大的计算能力和更低的能耗,能够更好地处理时空特征信息,并且,基于脉冲神经网络能够构建神经形态计算,突破现代计算机发展的瓶颈。然而,深度脉冲神经网络具有复杂的时空关系和脉冲不可微的特性,这些难点限制了反向传播在深度脉冲神经网络上的利用,导致其性能与传统人工神经网络仍有差
红外图像分辨率低和非均匀性噪声显著是红外图像复原研究中的重要问题。不同于传统算法设计,基于卷积神经网络的红外图像复原方法最大特点是提升复原能力并减少设计成本,使算法更智能化。然而,现有的基于卷积神经网络的单帧红外图像复原方法中,网络模型通常只具备单任务处理(去噪或超分辨率重建)能力,并且丰富的数据量需求以及大规模网络结构会给数据收集、模型训练和存储带来困难。针对这些问题和难点,本文重点开展以下研究
语义分割的任务是通过卷积神经网络预测输入图像所有像素点的类别标签,或理解为在像素层面进行的图像分割。目前,语义分割在单纯提升精度的研究工作已近瓶颈,同时也暴露出基于全卷积与监督学习下的语义分割模型的研究难点:1、标注数据成本问题。语义分割需要海量的标注数据作为精准分割的基础;2、计算资源问题。深度的卷积网络带来巨量的资源消耗,对硬件的要求非常苛刻;3、精细分割问题。深度卷积网络的池化和下采样步骤必
时序网络中的异常检测广泛地应用于医学、网络安全、社交网络等领域,旨在时序网络中检测某特定时刻明显偏离网络中大多数正常模式或不符合期望模式的节点或者边,能帮助人们发现潜在的不安全因素或感兴趣的问题。本文从时序网络中用户行为异常和用户交互异常两个方面开展了研究工作。在用户行为异常方面,现有工作的忽略了行为本身特征以及无法有效地捕捉时序网络的结构、时序特征,根据这两个不足提出了基于行为时序网络的局部变化
数据中心作为网络中支撑大数据、云计算重要的基础设施,其能耗问题一直备受关注。由于数据中心的节能需要更灵活的管理,允许对网络设备进行灵活控制的新兴技术软件定义网络为数据中心网络的节能路由优化带来了新的机遇。软件定义网络(SDN)是一种控制平面和数据平面分离的新型网络架构,具有灵活且逻辑集中控制的特性;利用SDN架构集中控制的优势,结合大数据分析和网络功能可编程的特性构建节能网络来降低数据中心能耗,对