基于反馈LSTM与注意力机制的图像生成描述算法的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:as5881348
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人类不可或缺的数字信息载体之一,图像被井喷式创造问世以至于没有任何机构能人工化地完全浏览,更不用说力图逐张理解图片语义。人工智能浪潮来袭,计算机视觉实现了诸如图像分类、图像检测等使机器“看”图片的能力。更进一步,如何使机器在语义化层面准确“理解”图片就变得日益重要,而图像生成描述算法实现了从图像到文本的跨模态实时转换,正是解决此问题的对症良方,研究方向前沿、应用广泛、意义重大。本文主要从两个方面对图像生成描述算法进行深入研究:主体描述的准确性、主体对象描述的细节注意力。为了解决主体描述准确性不足的问题,本文提出了基于反馈LSTM(Long-Short Term Memory)机制的编解码网络模型。基于编解码框架,该模型通过卷积神经网络、区域提议网络、关联域映射算法、主体特征缓存字典等算法模块,补足了循环神经网络长期依赖性的短板,充分发挥记忆链保留记忆的能力与三态门语义解码的优势,使解码阶段能够在激活函数粒度上追踪图片的主体信息并有效反馈,最终通过下一时刻的LSTM单元输出到目标描述。该模型在公开数据集与统一评估标准下,与三种主流模型进行对比实验,结果显示其在评估标准得分与实际描述效果上均有提升,有效提高了主体描述准确性。为了解决主体对象描述细节注意力不足的问题,本文提出了基于反馈LSTM与注意力机制的融合网络模型。结合基于反馈LSTM机制的编解码架构,该模型在编码阶段通过融合多维度增强表达特征模块、多维度注意力焦点权重分配算法对特征图谱进行增强注意;在解码阶段通过反馈LSTM网络与多维度注意力焦点的有机融合,精准聚焦图片主体对象的细节注意力,实现了根据输出锁定注意力焦点、通过焦点信息再反馈输出的多维度注意力自适应反馈的全流程。实验方面,该模型使用公开数据集与双重评估标准,与五种模型进行对比实验,结果显示该模型在细节注意力方面具有显著优异性,达到了让机器在语义化层面准确“理解”图片本身含义的目的。
其他文献
在低轨卫星网络逐渐融入下一代网络基础设施的趋势下,面向现有数据业务、以及超高清视频,下一代社交网络,浸入式游戏等未来新型数据业务提供可靠稳定、高吞吐量、低延迟的服务能力成为关键。但是低轨卫星网络中的链路非稳定性以及频繁拓扑切换导致的链路高动态性,使得现有拥塞控制机制难以提供稳定的高吞吐性能、高自适应的传输性能。本文分别针对低轨卫星网络的链路非稳定性、链路高动态性的两个缺点提出如下两种拥塞控制算法:
随着现代互联网技术的发展速度越来越快,人们的生活水平快速提高,移动设备的普及范围也越来越广,许多传统行业的发展都产生了巨大变革,传统的教学方式也需要紧跟时代的发展速度,利用科技的力量减轻教师和学生的压力,让课堂的效率和效果都能够得到提高。因此,将传统课堂与移动互联网相结合,已经逐渐变成现代教学发展必然会选择的道路。当前的传统教学方式中,一些环节比如点名,进行随堂小测试等,在班级人数较多时变得非常耗
对数码相机而言,如果要获得全部的彩色信息,需要经过光学系统分光,投影到三个不同的感光元件上,这样生成的彩色图像没有马赛克现象,但是这种模式的数码相机体积大,不便于携带而且价格昂贵。因此常用的数码相机均采用单感光元件,这种数码相机采样得到的数据仅为全部数据的1/3。利用此采样数据重建完整彩色图像的过程称为彩色图像的去马赛克。传统的全变分正则化方法采用二阶偏微分方程模型,有效保留了彩色图像去马赛克问题
数据开放共享阶段对数据进行分析与应用已成为共识,然而数据发布过程通常伴随着隐私泄露,如何自动化识别结构化数据集中的敏感属性并对其分类分级,仍是隐私保护中的难题。本文以属性敏感度量化及属性间关联关系为基础,探讨敏感数据的智能识别算法及自适应隐私保护方案。首先,利用熵的相关定义对属性敏感度进行量化,通过对敏感度聚类和属性间关联规则挖掘,识别敏感属性;其次,通过挖掘敏感属性间的显性互信息相关性和隐性关联
随着遥感影像技术的发展,从不同传感器获取到的数据为众多遥感影像应用提供了大量可用的数据。多模态图像提供的数据具有较好的互补性,因此在遥感、飞行器以及监控领域发挥了巨大作用。而多模态图像配准作为图像分类、变化检测以及目标识别等研究的预处理环节,具有不可忽视的影响,其中SAR与可见光图像配准一直是近年来多模态图像配准的一个重点与难点。本文针对SAR与可见光图像的配准存在的噪声干扰、较大的灰度差异以及几
随着对智能窗户,可穿戴电子设备和光学存储设备需求的不断增长,在低电压刺激下能够实现快速可逆光学转换的电致变色设备(ECD)实现了迅速的发展。相比于传统电致变色材料,本征态导电的有机电致变色聚合物(ECP)成本更低、加工性更好,具有大面积生产制造的可能性。此外,ECP可以通过合理的结构设计实现对其物理化学性质的调控,因此其被认为是制造新一代柔性智能光电器件非常有前途的材料之一。具有稠环结构的并噻吩类
随着现代多媒体技术的发展,人们对所听到音频的音质要求也越来越高,越来越多的研究者开始将神经网络算法运用到频带扩展技术中来,用于提高窄带音频信号的音质,但是性能仍有进一步的提升空间。同时,基于神经网络的频带扩展方法模型在应用时缺少比较便捷地接口,通常还需要强大的计算能力,因此设计并实现一个能提供可扩展计算能力的音频频带扩展任务系统具有一定的应用价值。本文提出了两种基于神经网络的音频频带扩展方法,设计
云机器人将业务转移到云计算中心处理的新型计算架构,成为机器人体系中的重点研究内容。云机器人借助云服务中的计算、存储以及网络等资源大大提高了工作效率,但是仅仅依靠中心云是不太可靠的。随着物联网的快速发展,中心云面临着沉重的网络负担,已无法满足用户低时延高带宽的需求。因此出现了边缘计算的模式,通过将云资源以及业务平台下降到网络的边缘,使得用户物理位置与业务云距离更近。从而减少用户端到边缘服务器端的交付
随着我国经济的快速发展,食品饮料行业因其作为快速消费品投资回报率高、且资金周转快的特点备受市场关注。吸引了众多国内外知名品牌进入中国饮料行业。然而在经过十几年的快速增长过后,从2015年起我国软饮料行业在中国经济稳中有变,危中有机的背景下,开始增速放缓,中国饮料行业步入“新常态”发展阶段。此外,随着中国消费市场的消费结构持续升级、居民健康意识提升等,消费者对饮料的产品需求也在不断变化;“互联网+”
生态系统福祉化是当今世界生态保护追求的目标,通过生态福祉的实现,促进生态保护与发展的协调也是各国相关政策制定的重要目标。联合国千年发展目标,2030年规划均将生态系统福祉化作为重要内容。生物多样性保护是提供生态保护,提升人类社会生态福祉的重要战略,也是导致利益冲突的重要原因。为此,客观评价认识保护地区生态福祉的实现,以及当地居民保护行为的影响是有针对性改善保护,提升对当地福祉供给,多层面实现保护目