基于深度学习的图像描述生成算法的研究及应用

来源 :贵州大学 | 被引量 : 0次 | 上传用户:luoshuinan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述生成将计算机视觉(Computer Vision)技术领域和自然语言处理(Natural Language Processing)技术领域完美地融合在一起,在盲人导航、盲人社交、人机交互、AI艺术创作、图像检索和少儿教育领域中都具有很广的应用前景。与目标检测、图像分类等任务不同的是,图像描述生成实现了用符合人类自然语言习惯的句子来描述图像,这不仅仅需要模型分辨出图像中的实体,还要求它能识别出其他的语义信息,例如实体的动作及其固有属性等,并理解出实体与实体、实体与环境之间的相互作用关系。随着深度学习技术及深度学习计算框架的不断完善和发展,基于深度学习的编解码(Encoder-Decoder)模型在图像描述生成问题中取得了不错的效果,但该模型简单地将图像和文本映射到同一向量空间,直接忽略了图像与自然语言之间存在的语义鸿沟。本文针对基于深度学习的图像描述生成算法展开研究,主要工作在于:1.创造性的将基于端到端的图像描述生成问题转化为Seq2Seq问题。虽然基于Encoder-Decoder模型架构已经成为解决图像描述生成问题的主流,但这样的只能够用一种黑盒的,从外部难以控制的方式描述图像,极度缺乏以可控的方式让解码器生成图像描述。针对这一问题,本文利用机器翻译的思想,在原有的Encoder-Decoder的模型架构之上,利用Spacy从图像描述中提取出实体块序列作为控制信号,用以辅助和指导长短期记忆网络(Long Short Term Memory,LSTM)生成图像的文本描述,将图像描述生成问题“白化”,缩小了图像与自然语言之间的语义鸿沟,使得图像描述的生成过程变得可控。2.提出了一种新的基于块哨兵和改进自适应注意力机制的图像描述生成方法。当前大多数的图像描述生成模型都使用了结构过于简单的解码器,使得模型很难翻译出高质量的图像描述。针对这个问题,本文在现有的基于自适应注意力机制的图像描述生成算法的基础之上,提出了一种基于深度学习的图像描述生成模型的改进方案,模型以图像实体块序列作为控制信号,同时设计一个控制实体块切换的块哨兵,以引入改进的自适应注意力机制的双层LSTM作为图像描述的生成器。实验表明:在MSCOCO及Flickr30k数据集上,本文模型在生成可控图像描述、图像描述质量及多样性方面优于当前主流的图像描述生成方法。3.引入强化学习思想来解决“曝光偏差”以及模型的训练目标和评价指标不匹配的问题,进一步优化图像描述生成模型的表达效果。首先Baseline使用交叉熵(Cross-Entropy,CE)损失来“早停”模型的训练,接着直接优化Cider指标对模型做进行进一步训练,在MSCOCO和Flickr30k数据集上的实验结果证明,这种方法可以显著地提升了模型的表达效果。
其他文献
页岩气储量大、分布广,是一种清洁高效的非常规天然气,被认为是常规油气能源的理想替代者。流固耦合作用下页岩力学特性和裂缝起裂机理是页岩气开采过程中水力压裂涉及的关键科学问题。本文以黔北地区寒武系牛蹄塘组页岩为研究对象,开展了页岩矿物组分测定(XRD)、扫描电镜分析(SEM)、巴西劈裂试验、单轴压缩试验、渗透性试验和数值模拟试验。研究了流固耦合作用下页岩储层的力学特性和破裂损伤过程。主要结论如下:(1
β型钛合金由于具有更低的弹性模量、更优良的生物力学性能、生物相容性以及耐蚀性能,已成为新一代的生物医用金属材料。本文采用真空自耗电弧熔炼技术制备Ti-15Mo合金,利用光学显微镜(OM)、X射线衍射仪(XRD)、电子背散射衍射(EB SD)、透射电镜(TEM)及高分辨透射电镜(HRTEM)等分析手段,对Ti-15Mo合金的时效析出行为以及形变时效机制进行了深入的研究与探讨;结合微观组织演变,对合金
随着互联网的快速发展,文本数据的表达逐步从单一的视图维度向立体的多视图维度发展。典型的多视图文本表达包含传统的文本主题、内容视图、文本的行为视图、文本的环境视图等。多视图文本聚类旨在可联合利用多个视图的信息,改善单视图信息在文本聚类上的局限,因而逐渐受到人们的关注。但是,多视图文本表示的高维稀疏性、差异性和不一致性等特性,为多视图聚类带来了额外的困难。针对以上问题,本文分别提出了增强语义嵌入的深度
磷石膏(PG)是磷酸工业的副产物,全球PG年产生量超过3亿吨,然而,目前只有15%的生产材料被回收利用。原状PG无胶凝自硬性,但通过一定条件脱水的PG具备一定强度,由于其强度低,常通过添加其他掺合料形成磷石膏基复合胶凝材料(PGCM)来提高其强度,同时由于PGCM具备轻质、保温、隔热隔声等优点,因此常作为新型的墙体材料,但大多数的磷石膏复合墙板性能差,不易满足抗震要求,阻碍了其在工程实践中的大规模
无线传感器网络是一类无线自组织网络,由大量的小型传感器节点组成,主要是对从物理环境获取的数据进行收集和处理,进而将这些数据传送到外部基站。传感器节点的资源通常会受到限制,故为了减少传感器节点的传输次数,降低网络的整体能耗,需要对数据信息进行融合,消除在传输过程中的冗余数据,提高无线传感器网络中能量的使用寿命。尽管无线传感器网络中的数据融合技术目前已经得到了广泛的研究,但当传感器网络中的节点部署在一
在我国经济实力整体不断增强的趋势下,高层建筑的数量每年急剧上升,而在大部分高层建筑中,由于抗震规范对轴压比限值的要求,使得柱子的混凝土强度往往较梁板的混凝土强度高出多个等级,此时节点核心区为满足强度设计要求,就必须采用与柱同级的混凝土进行浇筑,但已有对该类型节点的试验研究大部分还只停留在施工方法和施工技术上,对其力学性能方面的研究却很少,尤其是梁柱混凝土强度等级差值在较大的情况下,核心区高强混凝土
近年来交通运输行业对传统能源的依赖程度逐年上升,以二次能源为主的新能源汽车是近年来全球关注度最高的节能方案,其中电动化交通运输方案的发展最为迅速。锂电池由于能量密度高、循环寿命长、自放电率低等特点,被认为是电动汽车最可行的动力源,但其缺点在于充放电性能受温度的影响较大,甚至会因高温环境导致热失控现象。为了提高电池组的性能、寿命和热安全性,本文借鉴Tesla电池热管理系统(Battery Therm
随着传统能源的不断消耗与人们对环保理念的不断追求,各个国家开始开发风能以及太阳能等清洁能源进行能源发电,从而来满足人们的需要。但是由于这些自然资源的不稳定、不连续性特性会对电网造成冲击,产生较大的安全隐患。储能技术则能够有效的避免上述问题,其中微型压缩空气储能技术由于不受系统选址的限制,环境友好,能源获取方便且使用寿命长等优点备受社会关注。由于压缩空气储能并网发电前需要对系统的转速加以控制,以防转
随着深度学习呈现出飞跃式的发展和计算机设备的逐渐完善,目前的目标检测技术大多是基于深度学习的方式,而传统的目标检测技术已经逐渐落寞,在越来越多的领域都出现了基于深度学习的目标检测技术的身影,例如:无人自动驾驶、人脸精确识别、图像精细检索、工业零件检测等领域。但在实际生活中运用以深度学习为基础的目标检测技术时常常会出现问题,例如:目标之间相互遮挡,目标物体太小无法识别,网络模型参数太大无法达到实时性
近年来,随着信息技术的发展,用电需求大面积扩大以及对电力数据进行实时监测的需要,导致造成海量数据的堆积。如何有效地处理这些数据从而解决电网数据传输和存储的问题,一个较为有效的方法就是对数据进行压缩。近年来,随着信息技术的发展,用电需求大面积扩大以及对电力数据进行实时监测的需要,导致造成海量数据的堆积。如何有效地处理这些数据从而解决电网数据传输和存储的问题,一个较为有效的方法就是对数据进行压缩。因为