基于自适应的多尺度区分性图像细粒度特征表示方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:rrtaobao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像识别是一类研究如何从同一大类别中区分出不同小类别的算法任务。该算法的技术挑战在于不同类别下的物种其差异仅存在于极其细微的部位(例如,鸟的眼睛、嘴巴或者爪子等);而同一类别下的物种由于光照、姿态或背景等原因导致其表现出较大的差异。因此,如何精确找出具有区分性的区域并提取丰富有效的细粒度特征成为了图像细粒度识别任务的研究重点。当前细粒度图像识别方法存在的问题:第一,最具区分性部位被遮挡或者难以被真实呈现出来而导致的难以准确分类;第二,目标尺度变化问题。由于样本中目标的占比不同,导致只使用相同的“感受野”看目标获取的信息尺度大小不一,进而难以准确分类。基于以上问题,本文提出了基于自适应的多尺度区分性细粒度特征表示方法,具体工作如下:(1)提出了基于双重注意力的区分性细粒度特征表示方法DFM。该方法通过对通道和空间信息利用注意力机制产生双重注意力激活区域,并利用隐藏和凸显模块鼓励网络学习样本中的多个具有区分性的区域。(2)提出了基于感受野自适应调整的多尺度特征融合方法RFAM。该方法通过有效的组合不同扩张率的扩张分离卷积,实现用多尺度的“感受野”看目标获取多尺度的全局上下文信息,并通过注意力模块自适应的分配不同“感受野”特征的权重,从而获取有效的上下文特征信息。综合以上两种方法的设计,本文分别在两种算法框架中进行实验,其中基于VGG16的DFL-CNN+DFM+RFAM模型在CUB-200-2011、Stanford Cars和FGVC Aircraft数据集上分别超出基线1.2%、1.2%和1.4%;基于Res Net50的NTSNet+DFM+RFAM模型在CUB-200-2011、Stanford Cars和FGVC Aircraft数据集上分别超出基线1.0%、1.3%和1.7%。实验结果显示,在不同的基础网络、算法框架和数据集上嵌入本文所提出的方法模块均能得到性能的提升。
其他文献
随着建筑物内部基于位置服务需求的日益增长,面向导航服务的室内地图开发成为地图设计领域中的研究热点。在室内导航应用中,为了快速检索导航位置点的信息和获取位置点的地理坐标,需要精细化设计室内地图的数据结构;为了提高室内地图的维护效率,需要简化室内地图的编辑操作,及时更新室内地图数据。针对以上需求,以某大学办公实验楼为研究对象,以室内地图数据结构和地图绘制工具为研究重点,实现了面向导航服务的室内地图系统
COStream是一种高效的数据流编程模型,它在编译过程中基于数据流图生成可在多核上并行计算的程序,内部分析过程对用户透明,程序开发简单,但作为一种新的编程语言目前还不够完善。在编译方面,编译器内部没有完整的符号表支持,在编译过程中无法通过分析由变量控制计算节点的调用来生成静态数据流图,限制了COStream的应用场景;在程序设计方面,COStream编写嵌套数据流程序的方式复杂,不够友好。针对C
在基于匿名P2P网络的分散式存储系统中,数据所有方失去了对数据的绝对控制,而低可信的存储方随时可能篡改或删除数据,因此数据的完整性受到了严峻挑战。为了解决数据完整性难以得到有效保障的问题,数据持有性证明(Provable Da ta Possession,PDP)成为了当下学术界的讨论热点。PDP技术使得数据所有方可以在低可信的环境下通过挑战存储服务器,验证其是否正确地持有存储数据。然而,现有的P
在当前的信息时代,互联网蓬勃发展,各种知识信息爆炸性增长,人们对快速、准确地获取信息的需求促使了自动问答技术的诞生,基于自然语言的知识图谱问答系统(KBQA)正是其中的一个重要分支,它可以自动回答知识图谱中包含事实的自然语言问题,更加精准,快速且答案简洁。近年来,深度学习的方法也在KBQA中得到了广泛应用,但由于现实世界用户提问的问题多样,自然语言复杂且难以处理,现有的KBQA技术仍存在一些不足,
随着移动设备和动态网页技术的发展,智能设备中对浏览器性能需求不断提高,众多网络应用都开始大量使用JavaScript语言来为用户提供更加丰富的服务。在这样的背景下,JavaScript引擎的性能成为影响浏览器整体性能的最关键因素之一,进而影响用户的上网体验。目前,JavaScript即时编译引擎能够提升x86、ARM架构下JavaScript语言的解析速度,但该引擎尚未支持国产处理器。首先给出了J
交通运输是国之重器、强国之本。作为交通运输的一种,铁路运输凭借其成本低廉、受环境影响小等优点,已经成为人们日常出行和货物运输的重要方式。然而机车一旦发生故障,后果是难以预料的,轻则需要为其支付昂贵的维修费用,重则会造成机毁人亡的严重后果。机车的制动系统是机车的核心结构,因此针对机车制动系统开发一套满足需求的故障诊断专家系统具有重大的意义。另外,机务段工作人员在维修机车之后都会留下详细的诊断记录,在
基于词向量技术和预训练模型的深度学习方法虽然对于任务型对话系统效果提升明显,但是存在模型计算量和参数量过大的问题,对部署模型的服务器资源条件要求很高。如何在保持模型效果的情况下,尽量减小模型的参数和体积,对于对话系统落地有着非常重要的意义。使用多任务学习和低秩分解技术对传统任务型对话系统的自然语言理解和自然语言生成模块进行了改进,并使用改进的模型实现了一个完整的建筑领域文档对话系统。1)为兼顾自然
进入21世纪以来,人们的日常生活越来越离不开网络。互联网已经成为社会不可分割的一部分,而网络的运用需要通信设备来支持。现如今有线网络已经不能满足人们随时随地想连接互联网的需求了,于是近几年无线局域网的发展迎来了日新月异的发展。无线局域网给人们带来的便利是无限的。所以新型无线网卡驱动的开发,对于厂家来说是一个不错的机遇。本论文在利用厂商已有的无线网卡硬件的基础上,移植Linux网卡驱动里面的核心代码
数字音频在生活中离线场景的使用逐渐增多,数字音频以二进制存储的方式,作为一种信息载体,有易复制,易编辑的特点,可以携带大量的隐私信息,甚至部分音频包含重要的国家机密信息,如果被篡改就会对国家的安全造成严重威胁。国内外的对音频文件的加密保护主要是通过一些加解密算法,但是这些加解密算法在对海量文件数据的处理时,有安全差和加密速度慢等问题。基于此,针对常用的音频格式WAV和AMR,提出了结合区间算法的内
近年来,随着深度神经网络的发展,目标跟踪算法取得了长足的进步,已经成为计算机视觉技术最重要的研究热点之一。同时,基于孪生网络的目标跟踪算法以其巨大的速度优势和良好的跟踪性能在目标跟踪领域得到了广泛的关注和应用,成为了目标跟踪领域的主流算法。当前大多数目标跟踪算法都以anchor的方式实现对目标尺度的评估,我们认为可以将目前目标检测领域中的anchor-free方法应用到跟踪领域中,并实现与当前目标