基于注意力机制的图像字幕生成方法研究

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:j15890193764
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着信息技术快速发展,深度学习作为当前最热门的研究领域之一,无论是在计算机视觉领域,还是在自然语言处理领域,都有着飞速的发展。而由于图像字幕生成任务同时涉及到计算机视觉和自然语言处理领域,所以深度学习的发展直接促进了图像字幕生成方法的研究。图像字幕生成任务就是对给定的图像用一段自然语言来解释图像中的内容,这在深度学习领域中是一个难点,因为它不仅需要去识别图像中的目标和背景,而且还要用自然语言来描述目标和背景之间的相互联系。为此,本文基于深度学习的方法对图像字幕进行了研究,主要研究工作如下:注意力机制由于其关注局部信息的优点,备受研究学者的青睐。但是在图像字幕任务中引入注意力机制,能将单词关注到图像中的目标区域,但是难以捕获图像中多个目标之间的联系程度,从而影响到字幕生成质量。针对这一问题,本文提出一种优化注意力机制的图像字幕生成方法,该方法使用目标检测网络提取图像特征,并在传统的多头注意力机制的基础上引入优化注意力模块(Optimize Attention,OA),用以测量图像中目标之间的关联程度,从而引导字幕的产生过程。OA结合多头注意力机制的关注结果和当前上下文(即查询)生成“信息向量”和“注意门”,然后将“注意门”应用于“信息向量”来构造一个新的注意力,并将新的注意力再与“信息向量”进行逐元素相乘以生成图像中目标之间关联程度高的关注信息。实验结果表明:引入优化注意力模块有效提高了生成字幕的准确度,并在多个评价指标上都取得了一定的提升。传统解码器中所使用的空间注意力模型和自适应注意力模型,仅利用图像卷积特征进行解码来产生一条描述性语句,忽视了所生成单词的上下文关系,这使得所生成的语句连贯性较差。针对这一问题,本文提出一种上下文信息传递的图像字幕生成方法。该方法在每个解码时刻,将上下文信息、图像全局特征以及与上一时刻生成的单词同时送入解码器来预测下一个单词,以保持相邻词汇在语义上关联。实验结果表明:引入全局特征信息能增强生成语句中相邻词汇的紧密关联度,所生成的语句更加通顺。
其他文献
目的:探究鳖甲煎丸对肝纤维化小鼠的治疗作用及其对PPARγ表达的影响,以此阐述鳖甲煎丸治疗肝纤维化的分子机制。方法:将40只小鼠随机分为空白组、模型组、鳖甲煎丸低剂量组、鳖甲煎丸中剂量组和鳖甲煎丸高剂量组。除空白组小鼠腹腔注射橄榄油外,其余各组小鼠予四氯化碳(CCl4)腹腔注射,每周2次,连续6周。建模成功后鳖甲煎丸低、中、高剂量组小鼠给予相应剂量的鳖甲煎丸灌胃,空白组和模型组灌胃等体积生理盐水,
期刊
本文对电动汽车永磁同步电机系统自由停机和主动短路两种故障处理机制进行分析,提出电机系统自由停机与主动短路时电机系统产生的转矩与转速关系公式,并通过试验台架进行验证。针对电机系统自由停机与主动短路时电机输出转矩的特点,提出电机系统出现严重故障时电机系统保护机制处理原则,为电动汽车驱动电机系统严重故障处理方案提供参考,指导工程应用,提升车辆运行安全性。
会议
高温合金环件具有高温热强性、耐腐蚀、和良好的抗氧化性能等特点,广泛应用于航天航空等领域。径轴向轧制成形是加工此类环形件的有效方法之一。高温合金GH5188环件塑性性能差且该成形过程是一个需要经过多场、多因素耦合并且连续作用下复杂的不均匀塑性变形过程,导致环件在径轴向轧制成形过程中易出现壁厚不均、椭圆度和截面宽展等缺陷,严重情况下还会导致环件扭曲而无法成形。为此,以高温合金GH5188环形件作为研究
学位
微型涡喷发动机由于其重量轻、推重比高、便携带等优势,引起国内外研究者的高度重视,在微小型涡喷发动机的研制过程中,研究者们推崇更高的推重比和更大的比功率,但由于受到尺寸约制,在增大发动机推重比的同时会带来更多的热能耗散和性能损失。转子部件作为微小型涡喷发动机的核心部件,其结构紧凑轻便性越好,压比、功率等性能参数越高,对微小型涡喷发动机的整体性能提升就越大。传统的微小型涡喷发动机经过几十年的发展,其应
学位
微型涡喷发动机具有重量轻,尺寸小,推重比大、结构紧凑、能量密度高等一系列优点,作为动力装置被广泛应用于军用靶机、个人飞行器等军民领域。作为微型飞行器的心脏,发展前景十分广阔。目前航空燃气涡轮发动机转子均采用滚动轴承。但由于滚动轴承的固有的点线接触的结构特点,其寿命问题成为制约航空发动机寿命、安全的重要因素,在高温、高转速下更是突出。微型涡喷发动机与大发动机相比,虽然两者工作原理相同,但由于尺寸效应
学位
为研究震后降雨作用下堆积体滑坡的灾变机理、裂缝发展规律、滑坡启动时间等问题,以甘肃省舟曲县江顶崖滑坡为对象,采用振动台及人工降雨模型试验,开展4组相同地震烈度不同降雨强度的震后降雨试验。研究结果表明:(1)地震作用使坡体发生剪切破坏,震后降雨工况坡体呈现土体流失的浸蚀破坏,在坡脚处产生明显的剪出口,震后降雨作用诱发堆积体滑坡发生局部失稳。(2)地震作用使坡体中部产生剪切裂缝与错台,后缘处产生“圆弧
期刊
滚动轴承作为支承轴和轴上零件的重要机械元件,被应用于多种机械设备中。由于长期处于变转速变载荷的复杂工作环境,导致轴承非常容易发生多种形式的缺陷。因此,研究针对滚动轴承各种形式故障的有效故障诊断方法既可以及时地对轴承故障提示预警,也可以实时监测设备运行时的健康状态,保障工作环境的安全可靠。本文通过理论研究和实验,开展了基于模态分解与隐马尔可夫模型的滚动轴承故障诊断方法的研究。本文主要工作内容和创新点
学位
Mg/CO2粉末火箭发动机是火星探测原位资源利用最佳方案之一。它具有结构相对简单、有效比冲高、对环境不敏感等性能优势,同时又具备多次启动、推力可调等良好功能。Mg粉和CO2以气固两相流的方式进行喷注,其喷注方式必然影响Mg/CO2粉末火箭发动机的燃烧效率,为了实现Mg粉和CO2充分掺混燃烧,本文基于数值模拟方法,采用Realizable k-ε湍流模型,并考虑氧化层厚度对Mg颗粒熄火的影响建立了点
学位
生活中,受物体运动、相机抖动、光线散焦等多种因素的影响,拍摄的图像往往会产生严重模糊的现象。图像模糊不仅严重降低了图像的感官质量,而且对许多计算机视觉任务产生了很大的影响。图像去模糊旨在从模糊的图像中恢复潜在的清晰图像,传统的去模糊方法大多针对简单、单一类型的模糊,基于学习的方法有了很大的进步。但是,由于复杂的动态场景,去除运动模糊造成的图像模糊核非均匀问题,仍然是图像去模糊任务中的艰巨挑战。并且
学位
随着中试机构建设热潮的掀起,运行管理问题也随之而来。中试机构管理是一个系统工程。针对目前缺乏运行中试机构经验的现状,通过中西方中试机构发展历程探析,基于我国中试机构建设运行的实际情况,梳理我国中试机构管理现状。以成都市青白江区“文澜智谷”中试产业基地在管理机制方面的探索为例,提炼管理经验,为我国中试机构管理制度的创新积累先进经验。
期刊