基于注意力机制的图像标注技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:bee2357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的迅速发展,人们已经步入大数据时代,如何自动有效地对这些大数据进行分析处理是一件非常有价值且亟待解决的事情。图像标注技术就是一个具有挑战性的跨领域数据处理问题,它旨在自动地用准确且流利的自然语言来描述出图像的具体内容:它不仅需要识别输入图像中的显著物体,而且还需要使用人类语言来表达准确的信息。图像标注技术弥合了计算机视觉和自然语言处理这两个领域之间的鸿沟,可用于许多实际应用中,例如帮助视觉障碍者和人机交互等。通常来说,图像标注模型大多遵循一种“编码器-解码器”的架构:即首先将给定图像通过基于卷积神经网络编码为一系列中间结果向量并将其存储下来,随后利用基于循环神经网络架构的解码器进行逐字的解码,最终生成完整的描述性标注句子。近年来,随着注意力机制在自然语言处理领域中大放异彩,基于自注意力机制的Transformer模型也被引入图像标注领域,并且取得了不俗的效果。但是,现有的这些方法通常都忽略了图像中不同物体间固有的几何关系,因此会受限于相对位置的盲目性;同时,由于Transformer天然地将句子中的单词看做“词袋”,丧失了不同单词之间的相对位置关系。针对以上问题,本文在当前注意力机制上做了研究与改进,探究了位置信息对于图像及句子两方面的作用,主要研究工作如下:(1)注意力机制:探究了引入不同注意力机制之后对于图像标注的实际影响。传统的单层前馈神经网络结构简单,参数较少,并且效果一般;然而,自注意力机制可以看作是一种从单个查询到一系列键值对的映射关系,它首先计算当前查询与一系列键之间的相似性,然后基于此相似性权重得到一系列值的加权和,从而得到更精细的表达。(2)物体几何位置注意力:当前自注意力机制单纯地忽略了物体之间的几何位置信息,导致在生成句子时不知道当前物体与其他物体的位置关系。针对这一问题,提出了几何自注意力修正模块,显式地在传统自注意力机制中注入了几何位置信息。这样一来,每个物体不仅编码了自身的信息,还包含了与图像中其他任一物体的几何相关性。(3)单词相对位置注意力:Transformer特征提取器的解码端将句子单词看做词袋模型,丧失了单词的相对位置关系。针对这一问题,我们提出了位置LSTM模块。LSTM天然地以一种序列的方式逐字解析并生成句子单词,内在地就解决了句子相对位置编码的问题;同时,LSTM在每个时刻的隐状态还保存了当前时刻前所有已生成的单词,因此使得解码器能更好地专注于生成还未解析的那部分单词。
其他文献
Born-Oppenheimer近似是分子物理中最基本的近似,但对于电子运动和核运动耦合较强的体系,如具有Jahn-Teller效应,Renner-Teller效应的分子体系,BO近似便不再适用。透热模型是处理这类问题的有效手段,其基本思想是通过构建新的透热电子态,减小甚至是消除透热表象中的非绝热耦合项。本文在前人研究的基础上对透热模型进行了一定的发展和推广,研究了多个具有C3v对称性的E e型J
对于非奇异射影曲面曲面S,它的n点Hilbert概型S[n]上的很多不变量都可以由S上的相关不变量显式表达,如Betti数,Hodge数配边类椭圆亏格等等。本文中,我们将如上结果推广到一些与S[n]上tautological丛相关积分的生成函数。我们主要利用了中的策略:1.利用[3]的结果化到P2和P1×P1的情形2.对P2和P1×P1的情形做局部化.化到C2的等变版本(equivariant v
随着计算机技术、数字通信、多媒体技术和网络技术的发展,高维数据作为一种重要的信息载体,已在军事、科技、商业和教育等方面广泛应用。不可避免地,由于获取设备故障或获取条件不佳等原因,所获取的高维数据经常存在缺失,噪声污染等现象。高维数据的退化大大降低了其在各个领域的应用价值。修复退化的高维数据中主要包括高维数据的修复效果和修复时间。数字图像尤其是高维图像(多时间、多光谱、多模态等)是最具代表性的高维数
近年来,对物体三维重建的研究多数是在形状大小不会发生改变的刚性物体上,而非刚体作为现实世界的重要组成部分,早期对其三维重建的方式也是基于刚体重建。这些方式将物体尽量作为一个整体进行建模,易产生模型重建偏差,导致很难还原非刚体的局部特征与生理形态。基于此,本文以研究非刚体的鸟类为例,分析与研究已有数据集,重定义鸟类骨架与关键点信息,设计基于局部刚度能量优化的非刚体三维重建算法。对比已有算法并进行实验
计算机辅助检测与分割在临床实践中具有广泛应用。在这些应用中,大尺寸的目标可以获得较好的检测分割效果,但是像早期肿瘤检测,血管斑块分割等属于小目标范畴的检测与分割效果却不尽人意。医疗图像小目标检测与分割存在待检测目标面积小,小目标可提取特征少,易受噪声干扰等问题。目前专门针对这些问题的研究工作还比较少,因此探究如何改进主流的检测与分割算法使之可以有效进行医疗图像小目标检测与分割,是当前一项重要的研究
在大数据时代,传统的公钥加密机制虽然能实现隐私保护,却不能满足细粒度访问控制要求。而相比之下,属性基加密可以根据用户所拥有的属性来分配解密数据的权限,这相对于传统的公钥加密机制来说更加地灵活和高效。但是,随着属性基加密的发展,也涌现出了一些问题,其中较为突出的是密钥滥用问题。现存的密钥滥用问题有两种,一是权威机构分发密钥给未授权用户,二是授权用户泄露密钥给未授权用户。不管是上述哪一种情况都会给系统
2021年,党中央着眼保障学生身心健康成长,积极回应社会关切与期盼,印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,以“小切口”推动大改革,全力构建高质量教育体系。“双减”背景下构建高质量教育体系,必须强化“四个统筹”,夯实“四个基础”。
期刊
熔石英(非晶SiO2)硬度高,热膨胀系数低,耐高温,化学稳定性好,透紫外光和红外光。在惯性约束聚变(ICF)领域的大型高功率激光装置中,熔石英被大量用作光栅、透镜和窗口等光学元件。高功率激光装置的运行通量往往直接取决于光学元件的最大激光承受能力。然而,在高通量激光作用下,熔石英的表面缺陷易导致熔石英光学元件的激光诱导损伤,从而严重影响了光学元件的负载能力及光学系统的高通量稳定运行。随着光学元件的加
作为IT行业的重要发展趋势之一,云计算技术充分利用信息资源并提供优质服务。云计算服务在给用户带来便利的同时,也为用户隐私带来了潜在的风险。在云计算领域中,计算和数据分享被认为是最重要的两个服务。因此在云计算安全领域中,计算安全和数据分享安全被认为是最热点的两个方向。在量子计算机时代,基于格的全同态加密和属性基加密技术分别在计算安全和数据分享安全问题上发挥着重要作用。在云计算服务场景中,有时需同时考
目前,遥感影像在军事、农业、林业等领域得到了广泛应用。薄云在遥感影像中产生的模糊感,降低了遥感影像的质量,给地物分类、目标检测带来了严峻挑战。传统的去薄云算法并不能有效满足实际生产工作的需要。本论文以Landsat-8卫星陆地成像仪(Operational Land Imager,OLI)为实验对象,以云雾去除领域常用的大气散射模型为理论基础,构建物理驱动的去薄雾卷积神经网络;并根据遥感影像中薄云