深度度量学习算法研究及其在物体检索中的应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:tommy8248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学习样本间的距离度量是计算机视觉领域的一个基础而又重要的课题。近年来,随着深度学习在计算机视觉领域的快速发展,深度度量学习也得到了广泛的关注与研究。深度度量学习主要是通过深度神经网络学习得到满足距离关系的特征嵌入。尽管目前深度度量学习方法相较于传统度量学习方法已经取得了较大的进步,但其仍面临着一些挑战。大部分深度度量学习工作均基于正负样本对的相对距离的三元组关系展开,而基于正负样本对的绝对距离的二元组关系相对较少有研究关注。尽管基于二元组关系的对比损失存在难调参、易过拟合等诸多训练问题,但其仍有着较低的时空复杂度和不错的性能,故如何克服其缺陷对其进一步研究仍是十分有价值的课题。另一方面,间隔超参数也是影响深度度量学习算法性能一个重要因素。如何设计无间隔参数且性能优异的深度度量学习算法,也是深度度量学习研究的一大挑战。此外,如何设计不同于传统二元组、三元组约束的新颖损失函数形式也是深度度量学习的一个重要课题。本文针对深度度量学习的以上现状进行了探索,主要工作如下:(1)提出了一种基于最优传输理论的对比损失函数加权方法,将对比损失的损失矩阵作为传输问题中的传输成本矩阵,通过求解两个均匀分布间的最大传输成本为损失矩阵分配0/1二值权重,实现了一种小批量样本内的困难样本对挖掘方法。该方法保证在梯度下降时小批量样本中每个样本用且仅被使用一次,避免了梯度冲突问题;同时保证了挖掘到的样本对组合是满足条件的所有组合中传输成本最大的。在CUB-200-2011、Cars196与In-shop Clothes Retrieval数据集上相较于基线方法均展现出了更好的检索与聚类性能。(2)设计了一种基于样本检索序列关系的结构化深度度量学习方法。引入逆序对的概念,使用检索序列中所有相对序列位置关系不正确的正负样本(逆序对)与查询样本共同组成三元组计算损失。正确的检索序列结构保证了每个逆序负样本被放置到所有正样本的后端,从而避免了使用一般三元组损失函数中用于保证正负样本对区分度的间隔参数。另外,本文提出了一种基于负样本子序列位次的加权方法,为靠近检索序列前端的负样本赋予更大的权重。在CUB-200-2011、Cars196与In-shop Clothes Retrieval数据集上的实验结果表明该方法有着良好的性能表现。(3)提出了一种新颖的基于代表点的直方图损失函数,使用样本与代表点间相似度替代样本间相似度。通过代表点的思想改进了无间隔参数的直方图损失函数,解决了其在细粒度分类数据集上训练会使得模型崩溃的不稳定问题,同时在CUB-200-2011、Cars196与In-shop Clothes Retrieval数据集上提升了其性能表现。还验证了代表点方法在对比损失中的应用,并讨论了其易过拟合等弊端。扩展了代表点方法在深度度量学习领域的应用范围。(4)基于(2)中提出的结构化损失函数设计并实现了一个物体检索系统。系统使用.NET框架与Python进行开发,采用前后端分离的设计。该系统会根据用户所提交的图像从选定的数据集中返回前十个最相似的样本作为检索结果予以展示,同时给出最相似结果的置信度供用户参考。
其他文献
在家庭服务机器人领域中,同时定位与地图构建(SLAM)技术是当前研究的热点与难点。SLAM技术能够使机器人在未知环境下进行自主定位与地图构建。实际中,由于动态物体、光照等因素的影响,传统的SLAM技术很难获得较好的定位精度与构图效果。本文对家庭服务机器人的SLAM系统进行研究与设计,主要研究与工作内容如下:第一、针对传统Census算法与SAD算法精度较低的缺点,提出了一种自适应Census-SA
如今,随着人口老龄化与脑血管疾病造成的偏瘫患者的逐年增加,能为穿戴者提供诸如运动辅助、康复训练等功能的外骨骼机器人成为研究的热点,但人与外骨骼机器人的交互需要机器人主动理解人的运动意图,传统基于程式控制的人机交互方式无法满足需求。表面肌电(sEMG)信号作为肌肉运动时皮肤表面产生的电信号,包含丰富的人体运动信息,但从sEMG信号中解码人体运动意图的技术仍有待进一步研究。本文以关节角度表征膝关节运动
论文以6转动副(简称为6R)串联机械手末端装载摄像机为研究对象,首先基于6R摄影机器人的机械结构以及其技术参数,使用D-H改进法建立了6R摄影机器人运动学模型以及其运动学方程。给出了运动学正解的解析解和运动学逆解的算法及算法的优化。通过MATLAB GUI设计了运动学问题的人机交互界面,验证了运动学正解和运动学逆解的正确性。其次,研究了6R摄影机器人的运动轨迹规划。在笛卡尔空间重点研究了直线、圆弧
新闻资讯在社交媒体平台上的传播速度和扩散范围都是空前的,这也为谣言的肆意传播带来了便利。一些针对性的或故意捏造的谣言可能会挑起民众的情绪,进而破坏网络环境,造成非常不好的社会影响。然而微博上的言论是海量的,人工判断所有谣言的真实性并遏制虚假谣言的传播显然是不可能的,因此需要自动化的技术和模型来对微博谣言进行分析,进而完成谣言真实性的判定。本文主要面向微博平台上的谣言展开研究,涉及到谣言检测任务体系
强对流天气是具有演变迅速、生命史短、破坏力强等特点的灾害性天气之一,常对人民的生命财产造成严重威胁。因此,对强对流天气预报方法进行研究具有重要意义。目前,在气象预报业务中,通常使用多普勒天气雷达探测数据,反演出强对流天气系统的大气风场和降水等情况。本文旨在使用多普勒天气雷达数据,采取深度学习方法对半小时以内的降水情况进行预报研究。研究首先是对多普勒天气雷达数据预处理,构建数据集。具体是根据雷达回波
在现代化战争中低成本精确制导炮弹备受各国青睐,而采用气动力修正的PGK(精确制导组件)因其良好的修正能力、低廉的价格在制导弹药中得到越来越广泛的应用,但因其良好的控制受限于弹体转速,当弹体转速不在PGK反旋舵机控制范围内时,就失去相应的制导能力。本论文旨在解决这一问题设计了一款新型的云台式PGK,增强了PGK对弹体转速的适应范围,且控制系统动、静态性能良好,提高了弹箭精准度,在低成本精确制导弹药领
工业生产中,对多自由度机械臂的应用日益增加,对机械臂如何运动以及如何控制等问题的研究不断深入且存在许多优化空间,对于此类问题的研究有着重大意义。本文以搭载在Stewart动平台上的LOBOT型机械臂为控制对象,研究了机械臂与动平台的运动学建模、机械臂的路径规划与轨迹规划问题、动平台机械臂的控制算法、控制器参数离线整定算法以及进行联合仿真实验。本论文所做工作及成果如下:本文以LOBOT型机械臂为研究
现实世界中,关系普遍存在于事物之间,其中不同类型事物间的关系适合用二分图来建模,它们可用于识别或表示单个事物,价值不可估量。为了让计算机理解并充分利用这些关系,我们需要为每个节点学习向量表示,使其可用于其它机器学习模型。因此有必要充分考虑二分图的属性,来设计适合二分图的模型。本文首先调研了图表示学习模型的现状及缺陷,发现它们不适用于二分图,未能同时建模二分图所蕴含的显式和隐式关系,或由于线性结构而
在轨道交通领域,客流计数能够实时监控不同区域的客流情况,为引导分流等安防措施提供了保障,也为票务清分提供了有效依据。随着深度学习的快速发展,利用神经网络已经是计算机视觉的常规办法,如何设计更加轻量化的模型同时不大幅降低检测效果,是基于深度学习行人检测问题中十分有现实意义的问题;同时在轨道交通场景中低视角的监控角度导致行人遮挡更为严重,需要研究更加适用的行人跟踪算法。本文针对轨道交通场景下,客流计数
MEMS微镜的日趋成熟为激光雷达扫描光路设计提供了新的思路,但是其有效镜面尺寸的限制使得光束准直扫描光路设计中难以兼顾小的发散角、大的扫描范围以及高的发射效率,给激光雷达发射光学系统设计带来了很大的难度。为此,论文引入遗传算法,研究了MEMS激光雷达扫描发射光学系统理想镜组参数的最优化设计问题,得到了满足光学系统约束条件的最优化设计结果。论文在深入资料调研的基础上,梳理了项目组已有MEMS激光雷达