基于深度学习的图像文本描述算法研究

来源 :西安工程大学 | 被引量 : 0次 | 上传用户:racerdan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像文本描述算法是将图片中元素之间的关系用流畅的自然语言表述出来的交叉研究领域。通过模仿大脑神经系统接收信息后的处理流程,人类设计各种模型让机器模拟大脑将图片转化成描述语句,让机器能够探索并感知世界。图像文本描述算法在导盲、图像搜索和医学图像自动语义标注等领域有较大的应用前景。图像文本描述算法使用卷积神经网络(CNN)处理数据集图像,把图像的特征提取出来,经过循环神经网络之后最终生成对应的自然描述语句。图像文本描述算法较早的实施方法主要有以下两种:1.基于模板的图像文本描述方法,该方法通过检测得到元素及元素之间的关系,然后在模板中不断地加入词汇,但该方法过于死板;2.基于检索的图像文本描述方法,该方法先检索与当前图像相似的图像作为模板,在检索图像关系前需要调整,这个过程将模型复杂化。针对以上两种方法的不足,论文使用基于深度学习的编码器-解码器结构作为模型的整体框架,这样可以更加准确地提取图像特征,生成更加可靠的描述语句。论文的主要工作在于:1.提出了一种基于Inception-v3和Word2Vec技术的图像文本描述算法。本模型使用编码器与解码器两部分相结合的基本结构作为模型的框架。其中前部分使用Inception-v3对数据集中的图像进行高效率地特征提取。后部分为了避免循环神经网络的长期信息传递的过程中因权重下降而导致信息可能丢失的问题,使用长短期记忆网络(LSTM)代替循环神经网络处理信息丢失的问题。在对文本特征进行编码的时候,采用Word2Vec技术取代One-Hot技术来建立标注词汇之间的关系。并通过实验证明,改进后的模型在MSCOCO数据集上的性能要优于未改进前模型的性能。2.为了使图像文本描述算法模型达到更好的性能,在卷积神经网络模型中引入卷积块注意力模块(CBAM)。本模型仍然使用编码器与解码器两部分相结合的基本结构作为模型的框架。前部分采用效果更好的卷积神经网络Inception-v4提取数据集中图像的关键特征。在Inception-v4中每个inception模块后面加入卷积块注意力模块,使得每个inception输出的特征都要经过空间注意力机制和通道注意力机制进行提纯,从而使模型关注更重要的信息。后部分采用长短期记忆网络。模型在训练中的损失图和其它模型比较不能够直截了当的观察出效果,因此除了给出模型的损失图之外,还采用一系列客观评价准则(CIDEr、Bleu-1、METEOR、Bleu-4)对模型生成自然描述语句的质量做出更好地比较。
其他文献
多级A/O-MBBR组合工艺因其将生物膜法和活性污泥法相结合,具有高处理效率和稳定运行性能、低能耗和低成本等优点而被广泛工程化应用。本研究针对西北地区回收水利用率低及氨氮废水种类多、危害大的特点,将柔性悬浮载体PBG与多级A/O-MBBR组合工艺相复合,对其展开一系列运行探究;将不同尺寸PBG载体投加于MBBR工艺中稳定运行,对比其对葡萄糖模拟废水的处理效能,监测载体保有量变化和微生物群落现象;通
近年来,随着科学技术的飞速发展,各种无线通信设备(如便携式电子设备、无线设备、手机等)逐渐小型化,给人们带来了诸多便利的同时也带来了严重的电磁干扰(EMI)。因此,开发高性能电磁干扰屏蔽材料在商业和军事通信技术中具有重要意义。金属及其复合材料是电磁干扰屏蔽中应用最广泛的材料,但是由于金属的高导电性,导致电磁波在金属表面发生多次反射造成二次电磁污染。此外,其高密度、机械柔韧性差、抗腐蚀性差以及繁琐昂
虚拟现实技术因其强可交互性、高沉浸感和多感知性,被广泛的应用在各类教学场景中。然而教育信息资源迅速增长容易引发知识内容过载,复杂、无序的碎片化知识容易导致学生在学习过程中产生知识负荷的问题,传统教学模式又存在交互性差、安全系数受限等问题。因此,本文提出构建知识树系统平台,通过虚拟现实技术实现知识树内容三维可视化,将原有教学知识内容多维度关联展示,辅助添加课程内容实验,有效加强学生知识感知能力,提升
随着大数据时代的进步与发展,数据量呈指数级增长。其中日志数据的研究对系统性能优化、用户行为分析、实时推荐等多个领域具有较高的价值,所以针对日志数据实时采集,挖掘内在数据信息并作出实时地响应具有较高的研究意义与价值。但目前在日志数据实时流处理的研究中,存在计算延迟高及资源调度时延较长等瓶颈问题。基于此,本文设计了面向海量日志数据实时流处理平台。本文的主要研究内容如下:(1)为了解决在Flink实时流
随着互联网和移动电子设备的普及,传统购物方式逐渐被网络购物所取代,从而成为新的潮流。其中服饰作为必需品,在网络购物中占有重要比例。目前大多数服饰购物平台的服饰检索技术是利用基于关键字的检索方法,但其存在无法全面地描述图像内容、人工标注服饰属性时主观性过大,影响服饰检索的精度等问题。而基于内容的服饰图像检索方法可以很好地解决上述问题。基于内容的服饰检索关键在于服饰图像的特征提取和特征的索引机制,现有
随着德国“工业4.0”、美国“工业互联网”、以及“中国制造2025”三大战略的相继提出,数据被作为推动传统制造业向智能化转型的核心。从海量数据中挖掘数据背后隐藏的知识,已经引起学术界和工业界的极大关注。但专业质量数据分析算法和分析工具应用难度大,易形成知识应用障碍,难以理解质量数据中蕴含的决策知识。因此,建立质量数据集成分析平台,采用数据可视化的手段辅助企业实现智能化管理已迫在眉睫。传统的数据分析
癫痫被定义为一种因大脑异常活动而引发的神经系统疾病。在非癫痫发作期间,癫痫患者的表现与常人无异。而在癫痫出现时,癫痫患者的直观表现为肢体痉挛、口吐白沫等。同时癫痫还可能会导致患者产生烦闷、抑郁的心情,更严重的话甚至会造成患者猝死。脑电图是用来检测和纪录大脑活动的重要手段,然而临床中对脑电信号的分析方法主要是依赖医生或专家的人工诊断。因此会存在诊断效率低下,诊断准确性有待提高等问题。为解决上述问题,
近年来,深度学习在计算机视觉领域的研究与应用越来越广泛。作为计算机视觉的研究课题之一,图像修复技术已应用到卫星图像处理、军事公安、视频和多媒体系统图像处理等多个领域。其目的是按照一定的规则修复已经受损的图像,从而得到和原图像相似的图像。目前研究者提出了许多图像修复方法,在一定程度上修复了受损图像,但是也存在修复后图像边界模糊、图像纹理不清晰、视觉效果差等问题,无法获得满意的修复效果。因此,本文针对
边缘计算就是将计算和存储下沉至边缘端的一种计算模式,而多集群边缘云是当今边缘计算架构的主流模式之一。能否实现多集群边缘云环境下的数据、计算资源的合理调度是决定边缘计算执行效率的核心要素。目前的调度方法存在集群调度负载不均衡、任务调度时延较大等问题。为此,本文结合边缘环境下任务需求不同,提出了一种多集群边缘云调度策略。具体如下:首先本文设计了一种新型的多集群边缘云框架,并在此框架上设计了部分功能模块
不同于以往人类可以借助自然界去分解处理垃圾,当前海量的垃圾已经超出自然界的承受能力,既影响人类生存又破坏自然环境,如何准确、高效、合理地处理这些垃圾是值得研究的现实问题。垃圾分类是将大量垃圾变废为宝的合理途径,但实际生活中许多人并不十分清楚每种垃圾的具体类别,从而造成垃圾乱投乱放,致使人工分类成本增加和资源浪费等诸多问题。“工欲善其事,必先利其器”,要想更好地推进垃圾分类工作必须善用科技的力量,技