基于注意力机制的图像描述研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户：caojunsuper

【摘要】

：

【作者】

：

朱旻炜

【机构】

：

江西财经大学

【出处】

：

江西财经大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像描述任务旨在生成给定图像的语言描述。该任务非常具有挑战性,因为它需要深入了解视觉和文本信息之间的关系。近年来,随着计算机视觉和自然语言处理技术的发展,图像描述任务取得了新的进展。当前,软注意力机制被广泛应用到图像描述任务中,它不仅提升了图像描述的性能,还为模型的定性分析提供视觉解释。软注意力机制根据上一时刻的单词,生成不同的权重并对图像特征进行加权融合,得到视觉注意力特征,并以此生成当前时刻的单词。在这个过程中权重更高的特征能够更多地参与单词的生成。然而,标准的注意力准确性度量方法评估结果表明,现有的注意力机制的对齐能力仍远低于预期。主要原因是:1)注意力机制会对齐到与目标无关的区域,导致对象幻觉等问题;2)标准的注意力准确性度量方法不够准确,不能有效评估注意力机制的对齐能力。本文针对以上问题开展了研究,具体内容如下:（1）提出一种基于自底向上特征的图像描述注意力准确性度量方法。当前主流的特征是自底向上的区域特征,这些区域存在重叠以及无法完整地覆盖整幅图像等问题。因此,对于基于区域特征的图像描述模型,定量地分析注意力机制的准确性是十分困难的。标准度量方法只关注注意力权重最大的区域,忽略其他区域的贡献,不符合软注意力机制的特性。为更好地衡量注意力机制的有效性,本文提出一种基于自底向上特征的图像描述注意力准确性度量方法。首先,通过特定映射,将图像区域级别的注意力权重分布映射到空间域,得到像素级别的注意力热力图。其次,计算视觉标注内热力图覆盖率,作为单词的注意力准确分数,判定该词的注意力准确性。最后,使用所有单词的注意力准确性,通过调和平均方法,获得注意力机制的准确性。实验结果证明,该度量方法能够准确评估注意力机制的准确性,且该度量方法与图像描述指标更加一致,使注意力模型更具可解释性。（2）提出一种基于组的注意力机制监督图像描述方法。使用视觉标注对注意力机制进行监督,可以有效提高注意力机制的对齐能力,解决对象幻觉等问题。但是,视觉标注中包含背景噪声和无关目标,生成的标签会误导注意力机制。同时,强监督的学习方法不适合多区域的标签,会引导注意力在多个区域上均匀分布,生成含糊的描述。为解决上述不足,本文提出一种基于组的注意力机制监督图像描述方法。首先,改进了用于生成注意力标签的区域采样策略,采样到更多富含目标视觉信息的区域,其中包括最有利于识别目标的辨识区域。之后,根据采样结果,本文对区域进行分组,将采样到的区域分为正类组,其余的区域分为负类组,并分配组类标签。然后,设计一种基于组的损失函数,以弱监督的方式对模型的注意力机制进行监督。该方法动态地获取最有区分性的视觉特征,这些特征可以是目标有辨识力的部件,也可以是目标的整体。该方法可以集成到大多数注意力模型中,并且不会增加模型的复杂度。在Flickr30k和MS COCO数据库上的实验结果表明,该方法分别取得96.0和140.9的CIDEr结果,均优于其他方法,可视化分析结果表明,该方法提升了注意力机制的对齐能力和生成描述的质量。

其他文献

基于图卷积网络和推荐算法的人脑视觉信息编解码研究

人脑是人体内非常复杂又重要的器官,研究人脑的功能是十分有意义的。视觉信息作为人类认知主要的信息来源,其运行机理一直是脑科学的研究热点。功能磁共振成像（functional Magnetic Resonance Imaging,f MRI）是目前观测人脑活动最主要的研究工具,可以对人脑以较高的时空分辨率进行三维无损成像。针对人脑视觉信息的解码问题,本文主要借助于图卷积网络模型,对人脑在静态图像刺激下

学位

基于深度强化学习的交通信号控制优化

现如今,我国人均国民经济水平与日俱增,人民的生活水平也不断提高。与此同时,人们对汽车的需求量也不断增长,而汽车持有量的大幅增长所带来的首要严峻问题就是交通拥堵,这也对当前的城市发展造成了很大的影响。车辆和行人在道路上必定要经过交叉路口,而交叉路口能够使他们顺畅地通过对整个城市交通的发展也有着长足深远的意义。交通信号控制所针对的对象就是交叉路口,同时,交叉路口也是城市通行能力能否提高的关键所在。目前

学位

基于机器学习方法的多变量生物医学数据分类研究

随着自然科学的发展和全球信息化的推进,生物医学领域进入了大数据时代。尤其是机器学习方法出现之后,其强大的特征提取能力极大地推动了生物医学数据的研究进程。根据研究变量个数的不同,生物医学数据可分为单变量生物医学数据和多变量生物医学数据。在各类多变量生物医学数据中,脑机接口（Brain-Computer Interface,BCI）技术的研究有助于视听觉受损和肢体运动能力受限的残疾人恢复正常,功能磁共

学位

基于轻量级残差网络的图像超分辨率重建方法研究

随着数字图像处理技术和无线通信技术得到高速发展,短视频应用和流媒体平台逐渐兴起,使得人们对视频影像质量的要求日益提高,在许多应用领域中已不容忽视。但是,由于通过升级硬件来提高设备分辨率的代价和局限性较大,数码监测产品常常会在一定程度上牺牲分辨率,从而确保记录装置能够长时间地、稳定地工作,并具有适当的帧率来处理动态情况。在遥感方面,也有相似的情形,比如,在空间、频谱、时间分辨率等方面,都有一定的折中

学位

EOR：支持嵌套合约的区块链事务并发执行框架

自从中本聪提出比特币和区块链概念以来,区块链技术得到了广泛关注和发展。区块链具有的防篡改、可追溯和完全去中心化等优点使其具有广阔应用场景,目前已广泛应用于多个领域,如金融、医疗、供应链、政府监管、资产管理等。但是,从事务处理角度看,区块链系统事务处理低下严重阻碍了区块链技术广泛应用。相比于传统数据库系统,区块链系统事务执行缺少并发控制,节点间存在大量事务冗余执行,系统框架上缺乏事务并行执行的设计。

学位

结合区块链和QR码的医疗图像共享方法研究

信息化技术的发展给远程医疗和医疗图像共享带来极大的便利,然而,医疗图像作为一种特殊且私密性较强的数字化影像,在公共网络上传输时难免被截获或篡改。患者医疗图像一旦泄露或者遭到恶意的利用和操纵,很容易导致一系列社会性问题。因此,在医疗健康领域,加强医疗图像的安全共享是必不可少的一项工作。区块链技术作为一种新兴的分布式账本,因其去中心化、去信任、不可篡改和可以溯源等特征,已被应用于医疗图像的内容保护与安

学位

先验指导的深度图像增强深度模型研究

随着人工智能的发展,场景几何信息的获取,例如深度图像,对高级计算机视觉任务有重要的作用,其被广泛应用于虚拟现实、无人驾驶等领域。目前主流的深度图像获取方法有两种,一种是通过立体匹配算法生成深度图像,这种方法对低纹理和遮挡区域的匹配效果不佳,另一种是通过To F传感器等设备主动感知深度值,这种方法受限于设备成本,获得的深度图像分辨率低且带有噪声。因此,为满足热门视觉任务需求,深度图像增强需求极为迫切

学位

基于改进的EEMD和GA的心电信号特征融合与特征优化算法研究

心律失常所导致的高致死率和高致残率并发症给家庭和社会带来了沉重的负担。如何有效预防和诊断心律失常已成为当前亟待解决的问题。现有的诸多方法中,对人体心电图（Electrocardiogram,ECG）进行实时动态自动监测是一种最为有效预防和诊断心律失常的手段。在进行ECG信号自动监测时,心律失常识别准确度是最为重要的问题之一,而ECG信号特征提取是提高其识别准确度的关键步骤。然而,现有的ECG信号特

学位

基于深度学习的显著目标检测模型可扩展性研究

随着数字媒体的发展和信息传播方式的多元化,图像逐渐成为了人们接收信息的重要媒介之一。人们在生活工作中会接触大量的图像数据,但往往只关心其中的少量信息。因此,从图像中高效快速地提取吸引人类注意力的信息是极其重要且有意义的。显著目标检测（Salient Object Detection,SOD）研究旨在从图像中快速定位和提取最吸引人类注意力的目标和区域,以帮助人们快速获取有用信息,是计算机视觉中一个重

学位

基于区块链的快递信息隐私保护方案研究

随着互联网技术的发展和普及,经济一体化浪潮的到来,电商产业获得了快速发展。同时随着网上购物逐渐进入了人们的生活中,与之密切相关的物流业务也获得了高速发展的机遇。虽然快速便捷的快递运输提高了人们的生活效率,但也带来了一些隐患,其中用户隐私泄露问题最为引人注目。目前快递运输是通过包含用户明文信息的快递单来实现的,由于贴在包裹上的快递单暴露在外,使得不法分子很容易直接或间接地得到用户信息,从而造成用户隐

学位

基于注意力机制的图像描述研究

与本文相关的学术论文