基于注意力机制下的图像描述方法研究

来源 :浙江工商大学 | 被引量 : 1次 | 上传用户：xltmzzd

【摘要】

：

【作者】

：

杨礼总

【出处】

：

浙江工商大学

【发表日期】

：

2020年01期

【关键词】

：

深度学习图像描述生成注意力机制计划取样集束搜索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年,随着深度学习的迅猛发展,计算机视觉领域和自然语言处理领域受到了众多学者关注。图像描述任务将二者相结合,根据图像的内容,生成一段与图像内容相关且语义通顺的自然语言,实质上是一个从编码到解码的过程。本文基于传统的图像描述方法,在其基础上进行改进,论文主要研究工作及创新点包括:1、传统的图像描述任务在处理图像特征信息能力不足,忽略了图像关键区域的位置信息,因此本论文提出了基于注意力(Attention)机制的图像描述方法,使用ResNet-101作为编码器,将图像的特征信息与语义信息进行融合,在解码生成描述时让模型对特征具有选择能力,关注到图像相对应的区域。2、考虑到模型在训练阶段将图像的真实标签作为输入,而在测试阶段将上一时刻的预测值作为当前时刻的输入,训练模型和测试模型的差异会造成测试时单词出现累加的错误。因此本论文提出了一种计划取样的方法,在训练阶段的当前时刻的输入部分添加上一时刻的预测值,让训练阶段的模型接近测试阶段的模型,使用掷硬币的策略方式来选择训练的阶段输入的是当前时刻的真实值还是上一时刻的预测值。3、为在测试时能生成更准确的描述,本论文使用了集束搜索(Beam Search)技术,每个时刻Top B概率的单词作为备选,选取当前累计得分最高的单词作为结果输出。4、注意力机制模型把特征图区域平均划分,并给每个区域分配权重,这种方法忽略了如何选取特定图像区域的功能。本论文提出了一种基于自下而上和自上而下的联合注意力机制。对于模型编码部分的自下而上注意力机制,使用目标检测技术获取图像兴趣区域的对象特征;而语言解码部分使用两层LSTM解码器来提高语言输出的表达能力,包含了自上而下注意力机制的LSTM和语言模型的LSTM,并在注意力机制输出中添加了一个门限机制(Gate)过滤Attend后模型中的冗余信息,使生成的描述更加可靠。

其他文献

改进的CamShift人脸跟踪算法

经典CamShift算法在用于人脸跟踪时,遇到场景中有大面积类肤色区域出现的情况容易产生跟踪失误。针对该问题,提出在CamShift中融入模板匹配的改进算法。以颜色概率分布图中模板匹配是否成功作为CamShift算法迭代终止的条件,解决跟踪过程中的类肤色干扰问题。实验结果证明了该方法的有效性。

期刊

人脸跟踪自适应均值偏移模板匹配颜色概率分布图face tracking CamShift template matching color probabi

北美IPv4地址正式耗尽,然而IPv6还在路上

2011年2月3日,国际互联网名称和编号分配公司（ICANN）公布了一条“可以载入史册”的新闻：“最后一批IPv4地址今天分配完毕,IP地址总库已经枯竭。”而到了2015年7月,《华尔街日报

期刊

IPV6美国网络注册机构在路上北美区华尔街日报域名服务器路由选择表终端接入终端用户

电影《妖猫传》角色设计分析

影片中至高无上的'无上密'说的是一种运用在生活中的方法,关于如何在现实世界中寻求真正的平静,其中要义就是分为三个阶段:白居易的'看山是山',这是基础,我

期刊

幻术无上密真相谎言

基于运动偏移的大容量H.264视频隐写算法

在运动矢量的基础上引入运动偏移的概念,提出基于运动偏移的大容量H.264压缩域视频流隐写算法。运动偏移同时包含运动幅度和相角,在寻找信息隐藏最佳点时,不会遗漏运动幅值或

期刊

H.264标准视频隐写运动矢量运动偏移隐藏位置H.264 standard video steganography motion vector mot

高职英语教学中的文化渗透研究

【摘要】为了提升高职学生的学习效果，应该把语言文化融入到教学当中。本文分析了英语教学与文化背景之间的关系，并提出了在高职英语教学过程中渗透文化的措施，期望对高职英语教学有所帮助。　　【关键词】高职英语教学文化渗透　　【基金项目】省级质量工程，2014gkk018　　【中图分类号】H319.3 【文献标识码】A 【文章编号】2095-3089（2018）01-0017-01　　引言　　随着我国

期刊

高职英语教学文化渗透

基于注意力机制下的图像描述方法研究

其他学术论文