【摘 要】
:
图像描述生成任务的目标是自动化地生成对图像的描述性语句。近年来,这项任务获得了来自人工智能领域的许多关注,既因为图像描述生成技术具有广阔的应用前景,例如语言教学、
论文部分内容阅读
图像描述生成任务的目标是自动化地生成对图像的描述性语句。近年来,这项任务获得了来自人工智能领域的许多关注,既因为图像描述生成技术具有广阔的应用前景,例如语言教学、盲人导航等,也因为它同时涉及到了计算机视觉和自然语言处理这两个人工智能研究重要领域的关键技术。目前主流的对图像描述生成的研究方法都是基于编码器-解码器架构的神经网络模型,模型的训练方法是最大似然估计,但最大似然估计存在两个缺点:其一是忽略了语言的多样性,它要求模型以最大概率生成与真实描述完全一致的描述,但在自然语言中看起来在结构、用词上完全不同的句子却可以表达相同的意思;其二是暴露偏差,最大似然估计训练时模型每个时刻的输入是来自真实描述的词,但模型在做推断时每个时刻的输入来自模型前一个时刻的输出,这种不一致在时间上积累后会导致生成的句子质量降低。因此,本文设计了一个基于生成对抗网络的图像描述生成模型,可以避免最大似然估计的两个缺点。生成对抗网络中包含生成器和判别器,生成器生成句子来欺骗判别器,判别器判断一个句子是真实描述还是由生成器生成,它们交替训练最终达到收敛。本文设计了一个采用编码器-解码器架构的生成器,在生成器中提出一种新的时变预注意机制让解码器能够更好地理解图像中的关系,时变预注意机制的功能是,让每个图像的局部特征与其它的局部特征进行交流,通过计算注意力得到一个包含关系信息的聚合特征向量,之后解码器将注意到聚合特征向量上;也设计了一个判别器,判别器以循环神经网络为主体编码输入句子和参考句子,将编码向量与图像特征做语义匹配。在训练这个网络时,因为生成器的输出是离散的文本,梯度信号无法通过生成器的输出反向传播给生成器的参数。针对这个问题本文提出一种基于强化学习的训练算法,将生成器看作是一个强化学习中的主体,将判别器的输出看作是环境给的奖励,利用策略梯度方法来估计生成器的梯度,在梯度估计中使用了自批判的基准来减小估计梯度的方差。文中使用公开数据集Microsoft COCO对时变预注意机制和对抗网络都进行了实验,实验结果表明提出的时变预注意机制提高了模型在多项自动化评估指标中的性能,也表明对抗网络能够有效提高生成描述的质量。
其他文献
通过中试规模试验系统 ,研究了大型微污染水源水生物接触氧化处理工程 (渠道式 )中生化池的排泥方式。结果表明 ,在生化池近底流速超过 0 2 0m/s时 ,可保证泥沙不会在池底
目的:探讨甲沟炎的发病原因。方法,根据我院甲沟炎患者就医的病情分析。制定有效治疗方案。甲沟炎虽不是大病,但在临床较多见,影响正常的工作、学习及生活。结论:认真对待甲
当前保障房建设存在的问题、矛盾很多,根源于行政化的政府保障房模式,具体方法的改进已经不能解决问题,需要从基本思路上重新思考。我们提出构建"商保融合"的新型市场化保障
随着近代石油工业的迅猛发展,石油勘探开发的重点不得不转向某些开发难度较大的低渗油气藏、非常规油气藏等,且所占比例呈日益增长的趋势。而且随着未来石油勘探程度的逐步加
《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》的核心内容可以概括为"1+5+50"。所谓"1",就是要全面建成小康社会,今后五年党和国家各项任务,归结起来就是夺
随着经济的快速发展,工业化程度的提高,我国水资源污染越来越严重,水体中被检测出的有机污染物种类和含量也越来越多,这类物质存在于环境中已严重威胁到人类健康,其中内分泌
铜绿微囊藻是蓝藻水华过程中的典型优势藻种。通常认为,降低氮磷负荷是控制铜绿微囊藻过度生长的主要手段,但很多工程实践也发现,在控制了氮磷负荷后,水华现象依旧频发。因此
西安鼓乐属于中国传统器乐中的吹打乐,自古以来流行于西安地区,其产生年代,无具体记载。2009年被联合国教科文组织列入《人类非物质文化遗产代表作名录》。西安鼓乐目前有六个百年老社,文章将选择其中的两个乐社作为田野考察的对象,即何家营鼓乐社和东仓鼓乐社。由于两个乐社间存在很大的不同,因此,本文通过对两个乐社的生存背景、音乐本体、乐社成员、发展现状等方面进行比较研究。文章分为绪论、何家营鼓乐社与东仓鼓乐
近年来,随着深度相机的普及和发展,实时三维手部姿态估计成为了研究热点。手部姿态估计可以在人机交互、虚拟现实和增强现实等应用中发挥重要的作用。随着神经网络在计算机视觉中取得的成功,以及大型手势数据集的出现,基于卷积网络的手部姿态估计方法成为了研究的热点。由于投影成像的过程中存在着透视失真,导致二维深度图中的手部形状会扭曲,造成信息的损失;而三维卷积的时间复杂度和空间复杂度较大,不适用于一些实时应用中
金属增强荧光(MEF)来源于贵金属纳米颗粒局域表面等离子体共振(LSPR)效应,LSPR是金属纳米材料非常独特的光学特性,也是纳米材料研究领域的重要前沿方向。利用LSPR效应可以增强荧光分子的荧光信号强度,提高荧光检测法的灵敏度、准确度和适用范围,在光电器件、单分子检测以及能量转移等领域具有重要的应用价值。基于对MEF的研究,本文通过多元醇法、改进后的Stober法和热注入法等方法设计合成了具有特