基于注意力机制改善的图像描述生成

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kyy06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述生成任务跨越了计算机视觉和自然语言处理两个领域,该任务是极具挑战的,它不仅要求识别,检测出图像中的物体,对象,还要理解他们的关系,最后用一段自然,流畅的话来描述图片。同时,该任务有着很大的研究意义和应用价值,对该任务的研究让我们朝真正的图像理解这个终极目标更近一步,从实际应用价值上看,该任务能帮助视觉障碍人群更好地感知认识周围世界,能提高图文检索和图像标注任务的效率。当前主流的图像描述生成研究方法是在编码器-解码器框架中加上注意力机制。研究者们在此之上进行了各种角度的改进,比如用多阶段不断调整生成描述,修改解码器结构,利用更好的编码器直接和语义信息挂钩等等。注意力机制在整个人工智能领域已经是很普遍的一种机制,基本原理是对一组特征加权求和,加权系数代表关注程度,它的实现相对简单但是能带来很大的提升,我们论文的重点就是改善图像描述生成中的注意力机制。我们一共提出了两种注意力机制的改善方法。我们相信在前一时刻的注意力机制结果中的信息可以作为辅助指导下一时刻注意力的形成,因此提出了循环的注意力机制,包括朴素的注意力机制,门控式注意力机制以及基于LSTM的注意力机制。同时我们发现在普通的注意力机制中,特征集中特征之间的关系并没有被显式地考虑,因此我们还提出了自注意力机制来建模这种关系,从而得到一个有着全局信息的表达,接着我们研究了自注意力和普通注意力的组合方式。在MSCOCO数据集上的实验结果表明,朴素的注意力机制不能有效地利用前一刻的信息,门控式的注意力能略微提升生成描述的评价指标分数,但是这种提升非常有限,基于LSTM的循环注意力能比较明显地提高模型的表现,且这种提升不是来自于3层LSTM。自注意力机制本身能够提高编码器-解码器框架下的图像描述生成模型,和普通注意力机制在串行组合时增加了模型的学习难度未能最大程度发挥两者的优势,在并行组合时取得了最好的效果,达到和当前最好模型接近的结果。
其他文献
经过过去几十年间不断地建设与发展,中国内河水运安全体系取得空前的成就,已经形成了一个相对完善的内河水运系统。但是目前中国内河水运事故仍然频发,带来众多严重后果。2015年“东方之星”号客轮突遇罕见强对流天气,在长江中游湖北监利水域沉没,造成严重人员伤亡和巨大财产损失,再次突显出中国内河水运的安全问题之重,中国内河水运的安全问题亟待解决。本文旨在挖掘中国内河水运风险致因因素,制定相应策略,减少此类风
本文研究了不同深度强化学习算法在医疗应用-虚拟手术室中的表现。通过观察分析,创新性的建立了一个虚拟环境系统,目的是探究智能体在该环境下如何采取一系列行动以达到目标。该虚拟系统设计了惩罚奖励机制,引导智能体采取获得最大奖励的行为。本文回顾了不同深度强化学习算法对智能体的影响。本文通过实验图比较了不同算法在模拟环境下的表现。现有的方法,例如同步定位和映射(SLAM),都需要先验信息来引导智能体到达目标
Web应用已渗透到人们现代生产生活的每一个角落,Web应用安全举足轻重,对社会运行的方方面面都有重要影响。cookie作为Web应用重要的信息存储手段,保存着Web应用运行中的关键信息,其安全是Web安全中重要的一环。cookie同源策略是对cookie的访问权限进行限制的核心策略,但是cookie同源策略只是抽象的原则,浏览器对cookie同源策略的实现方法不尽相同,会导致cookie的意外发送
[目的/意义]基于专利地图对全球区块链专利信息进行分析,旨在发现区块链的专利申请状态分布、技术活跃度和发展趋势。[方法/过程]基于Incopat全球专利数据库,论文检索了2008-2020年全球区块链专利,从IPC分类、专利申请量、地区分布、技术创新主体和专利被引率等角度分析区块链专利信息。[结果/绪论]区块链热点技术领域有金融商业领域、通信领域和数据处理领域,包括检验系统用户身份或凭据的装置、支
开展复杂电磁环境下的先进雷达跟踪系统研究,是现代防空和导航应用的核心问题。本文基于雷达信度传播跟踪理论,首先构造时变因子图结构,并考虑有限步历史修正项及部分先验信息,提高潜在目标集合时变性,随后面向强杂波干扰环境展开深入研究。针对普通密集杂波环境,从雷达数据处理层面出发探索适应高密度杂波干扰的跟踪理论,基于信度传播结合幅度信息和多普勒信息,首先提出幅度杂波抑制跟踪方法,在数据关联阶段引入幅度似然比
近年来,许多研究者对结构可控性的鲁棒性进行了研究,考虑节点或者连边失效下系统的可控性的变化。有的研究基于网络连通性,通过对攻击的最大容忍度来刻画鲁棒性,有的基于节点或边失效而导致的路径增加来定义鲁棒性。据我们所知,目前还没有直接利用受损网络的可控子空间作为鲁棒性指标。因此,本研究针对各种节点失效策略提出鲁棒性度量,并基于这些度量给出驱动节点集的选取,以确保系统结构面对攻击具有更高的鲁棒性。鲁棒性的
软错误指高能粒子与硅元素的相互作用在存储单元中造成临时、随机的状态改变或瞬变。在航天领域中,由于外太空高能粒子以及高辐射的影响,使得星载系统中软错误的发生成为了一个高频事件,对于可靠星载系统的设计必须要充分考虑到软错误的影响。本文基于复杂系统内部可靠性威胁链理论,提出了针对控制器系统软错误量化评估方法,分析了控制器系统中软错误敏感的关键节点以及它们与系统失效状态的关联性,对软错误在控制器系统中的传
基于高性能柔性材料为主要驱动结构的机器人具有高水平的灵活性和运动能力,能够在不可观测、非全观测或非结构化的复杂环境中拥有比传统刚体机器人更出色的表现,因此当前学界对柔性机器人的应用进行了广泛的研究。由于柔性材料具有非常复杂的非线性特性,因此在柔性机器人规划和控制方面存在较多的挑战。为了使柔性机器人能够自主智能地完成目标任务,首先,在本课题研究中结合仿生学思想构建了一款构型独特并且结构灵活的柔性机器
依据直觉和弗洛伊德精神分析法,超现实主义者探求潜意识层面的世界,追求无边的自由。这是一种由直觉和想象参与的非理性的创造形式,是一种探究自我的艺术。艺术家将现实的概念与潜意识、本能和梦的经验结合,融合成一种超脱自然现象的真实感。本文对超现实主义与绘本进行概述,并对代表作品从表现手法、思维方式和绘画语言等方面分析超现实主义风格对绘本创作的影响。
近年来,加密SSL/TLS流量的增长呈爆发趋势,而恶意行为利用加密SSL/TLS流量隐匿在其中,且增长趋势快速,对用户、企业和国家的通信安全造成威胁,包括信息泄露、恶意攻击、僵尸网络通信等。因此本文研究恶意SSL/TLS加密流量的检测技术。本文在恶意SSL/TLS加密流量特征分析基础上,分别提出了两种恶意SSL/TLS加密流量检测算法,并实现了相应的检测系统。本文的具体工作如下:本文首先提出了一种