基于注意力机制下的图像描述方法研究

来源 :浙江工商大学 | 被引量 : 1次 | 上传用户:xltmzzd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,随着深度学习的迅猛发展,计算机视觉领域和自然语言处理领域受到了众多学者关注。图像描述任务将二者相结合,根据图像的内容,生成一段与图像内容相关且语义通顺的自然语言,实质上是一个从编码到解码的过程。本文基于传统的图像描述方法,在其基础上进行改进,论文主要研究工作及创新点包括:1、传统的图像描述任务在处理图像特征信息能力不足,忽略了图像关键区域的位置信息,因此本论文提出了基于注意力(Attention)机制的图像描述方法,使用ResNet-101作为编码器,将图像的特征信息与语义信息进行融合,在解码生成描述时让模型对特征具有选择能力,关注到图像相对应的区域。2、考虑到模型在训练阶段将图像的真实标签作为输入,而在测试阶段将上一时刻的预测值作为当前时刻的输入,训练模型和测试模型的差异会造成测试时单词出现累加的错误。因此本论文提出了一种计划取样的方法,在训练阶段的当前时刻的输入部分添加上一时刻的预测值,让训练阶段的模型接近测试阶段的模型,使用掷硬币的策略方式来选择训练的阶段输入的是当前时刻的真实值还是上一时刻的预测值。3、为在测试时能生成更准确的描述,本论文使用了集束搜索(Beam Search)技术,每个时刻Top B概率的单词作为备选,选取当前累计得分最高的单词作为结果输出。4、注意力机制模型把特征图区域平均划分,并给每个区域分配权重,这种方法忽略了如何选取特定图像区域的功能。本论文提出了一种基于自下而上和自上而下的联合注意力机制。对于模型编码部分的自下而上注意力机制,使用目标检测技术获取图像兴趣区域的对象特征;而语言解码部分使用两层LSTM解码器来提高语言输出的表达能力,包含了自上而下注意力机制的LSTM和语言模型的LSTM,并在注意力机制输出中添加了一个门限机制(Gate)过滤Attend后模型中的冗余信息,使生成的描述更加可靠。
其他文献
经典CamShift算法在用于人脸跟踪时,遇到场景中有大面积类肤色区域出现的情况容易产生跟踪失误。针对该问题,提出在CamShift中融入模板匹配的改进算法。以颜色概率分布图中模板匹配是否成功作为CamShift算法迭代终止的条件,解决跟踪过程中的类肤色干扰问题。实验结果证明了该方法的有效性。
<正>0引言在办公人员的日常工作生活过程中,Office办公软件得到了广泛的应用,尤其是Word、Excel软件更是得到青睐,但很多用户只使用一些简单的编辑、排版、打印等功能,没有涉
围绕着“以德树人”的中心环节,以上海市教委开展的“课程思政”的试点工作为开端,全国范围内掀起了“课程思政”的浪潮。形成了从“思政课程”到“课程思政”的转变,即从独
木马通常利用HTTP隧道技术突破防护设备,对网络安全造成威胁。针对该问题,提出一种利用木马操作行为检测网络中HTTP隧道木马的方法。该方法通过6个统计特征描述正常的HTTP会
2011年2月3日,国际互联网名称和编号分配公司(ICANN)公布了一条“可以载入史册”的新闻:“最后一批IPv4地址今天分配完毕,IP地址总库已经枯竭。”而到了2015年7月,《华尔街日报
影片中至高无上的&#39;无上密&#39;说的是一种运用在生活中的方法,关于如何在现实世界中寻求真正的平静,其中要义就是分为三个阶段:白居易的&#39;看山是山&#39;,这是基础,我
在运动矢量的基础上引入运动偏移的概念,提出基于运动偏移的大容量H.264压缩域视频流隐写算法。运动偏移同时包含运动幅度和相角,在寻找信息隐藏最佳点时,不会遗漏运动幅值或
【摘要】为了提升高职学生的学习效果,应该把语言文化融入到教学当中。本文分析了英语教学与文化背景之间的关系,并提出了在高职英语教学过程中渗透文化的措施,期望对高职英语教学有所帮助。  【关键词】高职 英语教学 文化 渗透  【基金项目】省级质量工程,2014gkk018  【中图分类号】H319.3 【文献标识码】A 【文章编号】2095-3089(2018)01-0017-01  引言  随着我国
本文以房屋建筑结构设计优化的方法为出发点,阐述了建筑结构设计优化的作用及意义,从建筑结构模型、计算方法及程序选择和房屋建筑结构选择等方面,探讨了建筑结构设计的优化