融合Faster-RCNN和Wasserstein自编码器的图像检索方法研究及应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:airbike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着社交网络和用户自创内容的快速发展,目前互联网已经积累了海量图像数据,标志人们已经进入“读图时代”。如何满足人们准确、实时的图像检索需求,已成为亟待解决的现实问题。传统的图像检索方法因其人工标记数据、关键字匹配等局限性,难以应用于大规模图像检索。深度神经网络以其优越的多层结构和强大的特征提取能力,在抽取图像内容方面表现优异,在一定程度上缓解从图像底层视觉信息到人类认知语义之间存在的“语义鸿沟”(Semantic Gap)问题。为了进一步细化检索内容、提高检索精度,减少图像背景因素的影响,图像实例级别的检索成为当前研究热点。本文研究基于深度学习的图像检索,并结合图像目标检测方法,用于提取图像全局特征以及表示物体的局部特征。同时,提出了一种基于Wasserstein距离的卷积自编码器模型(Wasserstein Convolutional Auto-Encoder,WCAE),用于图像特征的降维。本文的创新点和主要内容如下:(1)使用目标检测框架Faster-RCNN提取图像的全局特征和表示物体的局部特征,用于图像实例级别的检索。为了提高特征抽取的准确性,本文使用检索图像数据对特征提取网络进行权重微调。此外,在图像重排阶段,综合考虑物体类别得分和特征相似度两个因素,提出一种基于有效区域的空间重排方法(Valid Region Spatial Re-rank,VR-SR),以提高图像实例级别检索的准确性;(2)本文提出一种基于Wasserstein距离的卷积自编码器模型,用于对图像特征的降维过程。WCAE是一种非线性降维模型,可压缩数据并获得低维编码,同时确保信息不会丢失。由于引入卷积层,使得WCAE在处理二维信号优势明显。此外,本文使用区域最大池化(Region Max-Pooling,RMP)方法处理特征,以满足WCAE固定输入尺寸的要求。综上,WCAE是一种通用的降维方法,采用无监督的方式训练,不依赖有标记信息的数据,具有良好的应用前景;(3)通过融合Faster-RCNN特征提取模块以及WCAE特征降维模块,本文实现了一个精准且快速的图像检索模型。该模型完成从图像全局特征的粗粒度检索到物体局部特征的细粒度检索,以及降维前后不同维度特征的检索任务。本文提出的检索方法在Oxford5K、Paris6K、Oxford105K和Paris106K四个公开数据上分别达到81.3%、86.9%、76.2%和80.2%,相比于目前先进的图像检索方法,本文提出的检索方法效果更优。
其他文献
银材料具有良好的导热性和导电性,特别是纳米尺寸的银颗粒具有表面等离子激元共振效应,可以增强表面拉曼散射、表面荧光和催化活性等特点,在多个领域有广泛应用。因此,可以通
虚拟手术仿真系统是虚拟现实技术在医学方面的一个重要的应用,对于医生进行手术前的练习以及手术规划等具有重要意义。虚拟手术利用计算机构建虚拟手术场景,并利用人机交互实
三维打印技术实现了对组织工程支架的自主化设计和空间结构的精准可控。但由于打印材料的形变特性和打印过程的随机误差导致支架的内部微观结构与设计不一致,同时支架的空间
随着中国智能制造的快速发展,机械臂的研发水平迅速成长,使得机械臂精确的跟踪控制问题逐渐成为研究热点。本文基于模型控制和无模型控制两种方案研究了多输入多输出的n自由
致密储层开发潜力巨大,但开采难度较高注水困难。为明确致密储层中水驱前缘特征及其影响因素,分别选取4块不同孔隙结构岩心来进行分析。本文应用Micro-CT扫描技术获取岩心CT
近年来随着科学技术快速发展,智能机器人的研究受到人们越来越多的关注。在智能机器人研究中,SLAM(Simultaneous Localization and Mapping)是需要解决的基础性问题。现在大
云存储服务的普及,使得数据属主(所有者)把数据存储到云服务器,从而节省了本地存储空间。数据属主若以明文的形式分享数据,则会泄露数据隐私;若以密文形式分享,则会带来如何
量子计算是量子信息处理领域的重要课题。作为实现量子计算的物理基础,量子计算机需要满足初始化、控制、相干时间、读出及可扩展性等方面的需求。金刚石中的氮空位(nitrogen
表面等离子体激元(Surface plasmon polaritons,SPPs)是一种电磁场局域于金属表面的电磁波形式,其沿着金属表面传播且在垂直于金属表面方向上呈指数衰减。SPPs能够打破传统光
当前,视觉地点识别在多种新兴科技领域中拥有重要的应用前景和科研价值,并成为模式识别中的热点话题。对于视觉地点识别而言,提升性能的一个关键问题是设计分辨能力更强同时