基于注意力机制的图像标题生成

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:windtree
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像标题生成是自动给图像生成一个描述性标题,这是一个结合计算机视觉和自然语言处理的重要研究方向。图像标题生成可以辅助图像搜索和视频搜索,有着巨大的应用价值。当前主流的方法是基于注意力机制的图像标题生成。虽然图像标题生成已经被研究了很多年,但是现有方法生成的标题和人类给出的标题相比还是有很大的差距。本文主要是对基于注意力机制的图像标题生成进行改进,提高模型生成的标题的质量。本文在两个方向上对图像标题生成进行了改进,分别是注意力机制和对抗训练方法。本文的第一个工作是对图像标题生成的注意力机制进行改进。大部分的图像标题模型都是每次生成一个词就要关注一次图像。只关注一次图像容易忽略有用的信息,于是我们提出每次生成一个词可以关注多次图像。我们提出了Two-LSTM Merge模型,该模型可以在不增加参数量的情况下关注多次图像。我们的模型用两个LSTM分别对词序列和Attention序列进行编码,还用一个多模态层融合图像和两个LSTM的信息用来对下一个词进行预测。我们用MSCOCO数据集来评估这种方法的效果。实验表明,关注多次能提高图像标题模型的CIDE和SPICE等分数。我们的分数也超过了学术界上一年最好的方法的分数。本文的第二个工作是对图像标题生成的对抗训练方法进行改进。生成对抗网络能使模型生成的标题更加接近人类标注的标题。早期GAN方法中的判别器只将给定的标题和对应的图像进行对比,来判断该标题是不是人类标注的。我们提出,判别器还可以将给定的标题和参考的标题进行对比,这个对比也能反映给定的标题的质量。我们用孪生网络对给定的标题和参考标题进行编码。此外,我们还用WGAN来加快模型的收敛速度。我们也用MSCOCO数据集来评估这种方法的效果。实验表明,将给定的标题和参考的标题进行对比能提高图像标题模型的效果。
其他文献
随着现代信息技术的发展,光纤通信技术在信息传输中发挥着越来越重要的作用。然而由于光纤Kerr非线性效应的存在,造成信号在该介质中的畸变传输,导致信道传输速率受到了极大的限制,因此人们研究出数字和光学领域的大量技术来减轻这一不利影响。近几年来,一种新的基于非线性傅里叶变换(NFT)的非线性损伤补偿方法得到了广泛关注。该方法基于光纤传输信道的非线性薛定谔方程(NLSE)模型,将色散和光纤Kerr非线性
交通运输促进了货物的快速供应以及人员远距离的流动,大规模的交通运输提高了人们的生活质量和资源的可利用性和优化性。陆上和海事的交通量都在不断增加,并被认为是货物和人员运输中最主要的参与者。然而,如此高的交通量和增量随之而来的是事故的频繁发生。海陆交通事故造成了宝贵的生命和巨大的经济损失,每年全世界都要遭受数十亿美元的经济损失和数十万条宝贵的生命,而环境损失更是雪上加霜。为了减少此类事故的发生频率和严
随着我国制造业的迅猛发展,紧固件的重要性逐渐得到重视。本文针对紧固件在工程中最常见的横向振动松脱失效进行研究,分别建立了紧固件在拧紧过程与横向振动过程的力学模型。在拧紧过程的研究中,在前人圆头螺栓研究的基础上,对其扭矩系数的精确计算进行了完善,同时推导出六角头螺栓与圆头方径螺栓的扭矩系数,并通过拧紧实验进行验证,结果吻合较好。在横向振动的研究中,在前人考虑静载局部滑移研究螺栓临界横向力的基础上,结
水下智能机器人(AUV)已被广泛地应用于海洋资源开发及水下工程作业,视觉是目前最重要的环境探测技术之一,卷积神经网络广泛运用于目标检测。基于Le Net-5,本文提出了一种适用于水下训练集的卷积神经网络(CNN),并通过树莓派完成图像识别。AUV通过树莓派控制摄像机和水下照明灯,通过Open CV完成水下环境的图片采集;就卷积神经网络的主要网格结构卷积层、池化层、激活函数和梯度下降法进行了理论推导
伴随无线通信技术发展,产生了海量的无线设备、多样的设备种类、丰富的无线业务类型,于是通信、多媒体等业务的需求量随之高速增长,无线通信网络需要有更强的数据传输与处理能力来服务庞大的需求。无线网络对作为传输载体的频率资源的需求量急剧增加,而可用于无线通信的频谱资源有限,提升频谱效率成为无线通信未来发展的重要研究目标。传统无线通信采用频分双工或时分双工方式进行传输,全双工通信支持收发信机在同一频带内同时
毫克级扑翼微飞行器因尺寸微小、灵活机动,可以完成大型飞行器无法完成的任务而具有广阔的应用前景。其基于高频拍翅的升力机制具有振动非线性、多自由度力和力矩耦合等特征,有效升力/力矩为mN/μNm量级,难以用现有力/力矩传感器准确测量,给扑翼微飞行器的测试与控制带来一定的困难。为了解决这一问题,本文设计了面向毫克级扑翼微飞行器的多自由度力-力矩测试系统,该测试系统可以同时测量毫克级扑翼微飞行器所产生的力
随着科学技术的发展,物联网技术逐渐走进大家的日常生活,从智能家居、安防监控到自动驾驶、环境监控,互联网时代下的物联网正在悄无声息地改变着人们的生活方式,人们对于物联网的需求也日益增大。物联网的发展离不开基础网络设施的发展和建设,而作为一个传统的发展中国家,在中国的农村地区和部分偏远地区,基础设施建设不完善,这部分的人口享受物联网带来的便捷和物联网经济带来的红利就变得艰难。因此,寻求一种适用于中国农
认知科学和神经影像学领域的研究已经表明,情绪是一种极为复杂的行为和生理反应,它涉及到大脑中多个区域的回路。然而,目前在基于脑电信号和眼动数据的多模态情绪识别研究中,通常采用的是基于单通道分析的脑电特征提取方法,而未考虑到情绪所对应的脑功能连接网络。本文主要基于脑电信号来探索情绪所对应的脑功能连接网络模式。我们提出了一种与情绪相关的关键子网络选择算法,并提取了三种脑功能连接网络特征:连接强度,聚类系
为了在有限的资源上实现更多的连接,提高系统的频谱效率,非正交多址接入(Non-orthogonal multiple access,NOMA)技术被确定为第五代移动通信系统候选空口技术之一。作为码域的NOMA技术,多载波低密度序列(Multi-carrier low-density signature,MC-LDS)技术和稀疏码多址接入(Sparse code multiple access,SC
数据增强作为一种简单有效的方法被广泛应用以提升模型泛化能力,特别是在训练深度神经网络时。近年来研究人员们提出了不少新的数据增强方法进一步提升分类任务的准确率,其中主要以两类为首:Mixup这类对两张图片进行线性插值的方法,以及AutoAugment这类搜索最佳数据增强策略的方法。在本文中,我们针对Mixup中线性假设的不合理性,提出了一种基于特征空间距离的自监督方法,该方法要求原始图像和生成图像在