语义注意力深度图像标注方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:wzmuyelan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像标注(Image Captioning)是指利用计算机自动生成自然语言句子来描述给定图像内容。这就要求计算机首先要全面、详细地理解图像内容,即有效表征图像包含的物体、物体属性以及物体间的相互关系;然后,将图像内容转化为一句语法、语义正确的自然语句。其中,理解图像内容隶属于计算机视觉领域,而自然语言表达是自然语言处理中的重要任务之一。因此,图像标注涉及计算机视觉和自然语言处理两大学科领域。随着深度学习不断发展,深度神经网络广泛应用于计算机视觉和自然语言处理等各个领域。相应地,基于神经网络的图像标注模型亦开始迅速发展,其中大多采用编码器-解码器架构。在该架构下,编码器使用卷积神经网络(Convolutional Neural Network,CNN)编码图像内容为图像特征,而解码器使用循环神经网络(Recurrent Neural Network,RNN)将编码后的图像特征转化为图像描述。现有研究主要从增强编码器和解码器两个方向来提升图像标注性能:1)能否正确理解图像内容会影响图像标注的后续解码,因此,增强编码器能捕获全面、丰富的图像信息显得尤为重要;2)解码器负责将提取的图像特征翻译成文本描述,涉及到如何有效利用图像特征来生成接近人类描述的自然语句以及如何缩短图像特征到语言转换过程中产生的语义鸿沟。为此,本文引入有益于计算机理解图像内容的高级语义概念、配准图像特征与文本描述的注意力机制等策略来增强编码器或解码器,解决模型中存在的语义信息不足、注意力散聚等问题,来提升图像标注性能。本文研究内容和创新点归纳如下:1.基于目标感知的语义注意力模型。现有图像标注模型已验证,可通过提取图像上下文信息和空间信息来提升图像标注模型性能,但它们都忽略了图像中的物体等细粒度信息以及物体间关联信息,而这些信息对于理解图像、描述图像至关重要。为了能更好地理解图像内容并生成准确的文本描述,本文研究如何显示捕获物体的细粒度信息以及物体间的关联关系。借助目标检测器获取到的物体类别和位置信息,据此构建三类物体感知语义信息,分别是物体类别信息、物体间相对大小和相对距离。具体地,1)为描述物体个数,构建物体类别矩阵,存储每类物体的总数,能够从语法上保证生成句子的单复数形式正确;2)物体在图像中的相对大小能说明图像内容中的主要信息,保证生成的图像描述不会过于偏离图像主题信息;3)直观上,物体间的相对距离在一定程度上描述物体间的关联性。在基准数据集上的实验结果表明,上述提出的三类语义信息指导注意力模块,有效预测相应地语义文本表述。与现有人工高级语义感知的图像标注模型相比,提出的语义信息能极大地提升了预测文本的准确性。2.级联语义融合标注模型。为了实现编码器有效理解图像内容,现有工作主要关注如何提取或构造不同粒度的语义特征,这类方法需要凭借大量的人工实验和特征集成方案才能发挥出它们的效能。本文尝试采用基于级联结构的深度网络模型实现自学习语义信息,并完成不同粒度信息的融合,以捕获图像中物体的细粒度信息、图像的全局上下文信息以及图像的空间信息,进而指导解码器生成全面、准确的图像描述。此外,提出的模型中引入了语义注意力机制减少背景信息干扰,有效提升语义表征能力。通过消融实验,验证了不同级层的视觉特征对文本表述的全局和局部影响。在基准数据集上的大量实验结果表明,基于级联结构的图像标注模型极大地提升了标注性能。3.门控空间和语义注意标注模型。在编码器-解码器框架中,现有图像标注主流方向是考虑编码器如何捕获图像中的语义信息,而对解码器的潜在解码能力关注不够,特别是解码器如何将图像特征转化为与人类描述相似的自然语句。为此,本文提出三重LSTM,以先分后合的方式确认与图像主题相关的空间和语义注意力特征。在解码过程中,解码器提出上下文门模块以公平方式重新利用编码器的高级语义信息来预测当前单词,其中,重新加权空间和语义注意力可调整注意力机制模型的关注区域,有效关联图像区域与正确文本,以缩短图像和文本转换过程中的语义鸿沟。通过实验比对发现,采用上下文门模块能够有效缓解曝光偏差问题。4.分层编码器-解码器标注模型。现有工作很少同时改进编码器和解码器来提升图像标注性能。重要的是,如何有机耦合编码器和解码器,充分利用语义信息来增强物体和文本间的匹配,从而减少注意力散聚对模型的负面影响。为此,本文提出了一种简单而有效的分层编码器和解码器模型,并首次在图像标注模型中收集多个卷积层特征,允许模型分层次地跨不同级别渐进地捕获图像信息。基于这些分层特征,建立了多注意力LSTM模块,实现与任务相关的多层次特征融合,并在预测单词时对每个单词执行多次注意力机制,以提供更多机会来降低视觉特征和文本之间不匹配的风险,增强彼此间的关联性。
其他文献
多输入多输出(Multiple-Input-Multiple-Output,MIMO)技术和多跳技术能够通过引入空间分集对抗衰落并提高频谱利用率,进而达到提升系统容量、增强传输可靠性的目的,是目前研究的热点。为进一步提高MIMO技术和多跳技术的信息可靠性,本文在MIMO技术和多跳技术传输中引入混合自动请求重传(Hybrid Automatic Repeat re Quest,HARQ)协议,并以提
高性能计算机的出现和快速发展,使其被广泛应用于云计算、安全、大数据处理等领域。据统计大数据处理占据了46%的份额位居榜首。存储结构的复杂多样,计算机体系结构的多样性以及大数据处理问题体量大、数据复杂多样等特点,高性能计算机在大数据处理领域的应用面临着巨大的挑战。本文主要研究多种存储结构下不同应用场景的异构并行算法和优化技术,选取了大数据处理中的迭代算法、高吞吐率需求、大规模网络融合三种典型的应用问
传统通用处理器的设计与制造受限于功耗、散热等因素,其计算能力的持续提升遇到瓶颈,不能满足人们日益增加的计算能力需求。由通用多核处理器和专用加速器组成的异构众核系统具有很好的计算能耗比,在高性能计算领域和嵌入式计算领域都得到了越来越广泛的应用。然而,通用多核处理器与加速器间的数据搬运开销(通信开销)却成为影响异构程序性能的重要因素。多任务流技术是一项可以高效利用异构系统计算资源的编程技术。它通过对计
非合作双基地雷达利用第三方辐射源发射的信号实现目标探测,由于其本身不辐射信号,因此战场生存能力强,并且能够有效弥补传统单基地有源雷达在抗干扰和反隐身等方面的不足,具有广阔的军事应用前景。课题研究的非合作双基地雷达系统基于波形参数捷变相控阵雷达辐射源,其复杂的波形调制形式给非合作双基地雷达的信号处理带来了许多困难。本文在课题组研制的非合作双基地雷达系统样机的基础上,围绕系统在信号处理中面临的实际问题
得益于当前软硬件技术和互联网的飞速发展,云计算已经成为最具影响力的信息基础设施,在社会生产生活的各个领域都有着广泛的应用。通过将各种硬件资源整合和虚拟化,云计算为用户及其应用提供了一个灵活、高效的虚拟化存储和计算环境。然而,云计算中的虚拟化环境在给用户带来便捷服务的同时,也面临着来自不同层面的安全威胁。与此同时,日益丰富的攻击手段和虚拟化导致的攻击面拓宽,给虚拟化环境的安全保护带来了新的挑战。如何
离子具有相干时间长、保真度高等优点,因此囚禁离子系统是实现量子计算、量子模拟以及精密测量的重要平台之一。囚禁离子系统的规模化与集成化是近年来研究的热点。表面电极离子阱是解决这一问题的主要平台之一,但其研究还处于探索阶段。本文主要研究了表面电极离子阱的优化设计、离子阱的制备及囚禁离子系统的优化。主要内容与创新点如下:1、设计了具有装载区、操作区与传输区的多功能表面电极离子阱。提出了径向双势阱来作为操
随着高性能计算、大数据与人工智能的不断融合,高性能计算社区亟需同时支持这三种场景的计算系统来加速科学发现。然而,爆炸性增长的科学数据以及不同场景下应用截然不同的I/O特征促使融合应用呈现前所未有的复杂性。与此同时,不断加深的存储层次和多样化的数据定位需求进一步增加数据管理难度,导致高性能计算系统面临严峻的数据存储与管理挑战。为了在高性能计算系统上有效支持融合应用,本文结合层次式存储结构和应用特征,
随着人类社会的不断发展,软件的规模日益复杂,形式也众彩纷呈。但是软件危机就像一个如影相随的恶魔,经常在不经意中给人类造成损失。尤其是关乎国计民生的领域,对安全更加十分重视。金融、国防、航空航天等领域部署的软件,更是安全攸关。如何抵御“恶魔”?一方面,软件工程提出一整套的理论来帮助人们在软件开发过程中按照规范的流程来生产;另外一方面人们研究各种的软件质量保证技术来检测生产出来的软件是否可靠,测试、模
密码函数通常用于分组密码核心组件S盒的设计,其密码学性质的好坏直接关系到密码算法的安全性。本文围绕与分组密码S盒设计相关的密码函数进行研究,研究了具有高非线性度、高代数次数的4差分置换的构造及其CCZ等价性,m>n/2情况下具有低差分均匀度、高非线性度、高代数次数的(n,m)函数的构造,以及低重量高阶相关免疫布尔函数的构造,这些结果可以为SPN结构分组密码S盒的设计,Feistel结构分组密码S盒
近年来,自由空间涡旋光通信以其极大的通信容量和极高的频谱效率在国内外引起了广泛关注,涡旋光所携带的轨道角动量理论上取值无穷且彼此正交,能够为光通信提供新的维度资源。然而,涡旋光在自由空间传输时,不可避免地受到大气信道的影响,导致承载信息的轨道角动量态间产生串扰,造成通信系统性能下降。本文围绕自由空间涡旋光通信检测技术展开研究,首先针对轨道角动量在自由空间中的传输特性进行分析,重点研究了大气湍流、大