基于多重注意力机制的多标签图像分类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:mixcenter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签的图像分类问题是计算机视觉与模式识别领域一个重要的课题。由于在现实世界中,诸如图像、视频、音乐、文档等对象通常均由多标签的属性描述,相比于与单标签的图像分类,多标签的图像分类是一个更为实际且复杂的问题。多标签的图像分类问题通常有着更为复杂的输出空间,且图像特征中,各个标签所对应的特征往往会在识别过程中互相干扰。为了对图像进行有效的多标签分类,本文提出了一种基于多重注意力机制的多标签图像分类方法。多重注意力,即同时使用两种不同的注意力模型——类激活映射与跨模态多头空间注意力。本文使用图卷积神经网络进行标签增强学习,并将得到的标签嵌入表示与图像特征之间进行跨模态的多头空间注意力计算。通过图卷积网络的得到的标签嵌入表示,隐式地标签之间的关联信息。以标签嵌入作为类激活映射的权重矩阵,以此使标签关联性的信息在网络中传递。通过这种利用标签嵌入进行注意力计算的方式,可以充分地利用由图卷积学习到的标签信息。最后,本文分别在三个标准多标签图像数据集MS-COCO、Pascal VOC 2007和NUSWIDE上对本文基于多重注意力机制的多标签图像分类方法进行了评估,实验结果表明本文方法的效果要优于或近似于已有的多标签图像分类方法。此外,本文还对实验中的一些参数进行了消融实验,分析参数变化对本文方法性能的影响。
其他文献
随着第五代移动通信相关技术的普及以及物联网等概念的提出,以增强现实、虚拟现实、智能制造为代表的新兴移动应用不断涌现。这类以计算密集和时延敏感为典型特点的新兴应用
中国非常规油气资源潜力巨大,加快推进非常规油气的开采对缓解中国油气供需矛盾意义重大。致密气和致密油是中国目前重要的非常规油气资源,常规压裂难以取得经济效益,借鉴于
近来,不含传统的共轭结构,而仅含一些非典型生色团的发光化合物受到了广泛关注。尽管此类化合物具有重要的基础研究价值与实际应用前景,研究人员也不断地发现并合成了多种多样的此类化合物,但其发光机理仍存有争议。在本论文中,我们发现并研究了一系列含有磺酸根基团的非典型生色团化合物,证实了磺酸基团的发光能力。同时提出簇聚诱导发光(clustering-triggered emssion,CTE)的机理解释了这
对光栅跨尺度测量进行了研究,重点研究了基于双A/D采样的跨尺度光栅微纳测量算法、实现方法,并对双A/D采样的跨尺度光栅微纳测量进行了实验验证。提出的跨尺度测量算法,充分
随着交通事业的发展,高速铁路成为人们出行的重要交通方式。由于预应力混凝土箱梁的优点,常被应用于高速铁路桥梁上部结构。桥梁结构在地震作用下发生破坏,会给交通运输带来巨大的不便,同时对地方的经济产生严重的影响,因此,对桥梁结构进行设计时,应考虑抗震性能。本文采用Midas Civil/2015对新建郑州至万州高速铁路(72+128+72)m连续梁桥建立有限元模型进行研究,对结构在多遇及罕遇地震作用下进
随着人民生活水平不断提高,市场对河蟹的需求也在逐年提升。但我国的河蟹养殖目前仍以人工为主,劳动强度大,智能化程度低,容易造成投饵不均。为了实现河蟹的科学化养殖,在江
随着我国经济进入“新常态”,钢铁行业必须要从供给侧发力,加快自身的结构调整及技术升级才能保证持续发展,走向低能耗的“绿色生产”道路。TMCP(控制轧制和控制冷却技术)是目前热轧带钢生产领域先进技术的典型代表,是进一步提升带钢性能、节约合金元素的有效途径,而冷却单元则是实现TMCP工艺的核心装置之一。在工业生产实践中,考虑热轧带钢品种和材料冷却工艺路径差异,以及生产线改造成本等因素,TMCP的冷却线
TP2铜管连铸坯作为水平连铸首道工序的产物,其质量的优劣直接影响着TP2铜管成品的性能。结晶器作为连铸生产中的主体,其性能无论是对连铸的生产效率或铸坯的质量都起着至关重要的作用,连铸结晶器结构参数的改动直接影响铸坯质量,通过优化结晶器结构参数可以达到改善铸坯质量的目的。本文的主要研究内容:(1)通过工厂提供的结晶器结构数据进行1:1建模,在有限元ProCAST软件中采用四面体网格划分实体网格,将T
政产学研是知识社会环境下新的经济形态,政府和企业在产学研推进中面临的最大困难是专家引进问题。而在学术界,科研文献是多个专家为完成同一个目标而进行跨领域合作的学术活
随着5G和人工智能技术的不断崛起,人机交互方式的不断完善,越来越多的研究者开始从事于人工智能、自动驾驶以及人机交互领域。手势作为人机交互中最常见的沟通方式,逐渐成为