基于生成对抗网络的文本到图像的生成

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:nengding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何基于给定的输入文本描述生成与之相一致的图像是一个十分具有挑战性的问题。目前的方法大都是首先合成一张初始模糊的图像,然后提炼这张初始图像去生成高质量的图像。然而,现在大多数的方法都很难合成与输入文本描述相一致的初始图像。所以如何在初始图像不好的情况下去合成高质量的图像至关重要。在本篇论文中,为了解决这个问题,基于生成对抗网络(Generative Adversarial Networks)做了以下研究工作:1)提出了“基于多分辨率并行生成对抗网络的文本到图像的生成”的方法,该方法引进了三个模块:多分辨率并行结构、响应门和残差注意力机制。多分辨率并行结构采用多个子分支网络来维持低分辨率特征图的语义信息,进而去构成高级语义特征图。为了充分激发多分辨率并行结构的潜能,该方法还使用响应门去聚合不同的分辨率的高级语义特征图。之前的注意力机制都是在通道维度上将注意力特征图和可视化特征图简单地拼接起来,而为了生成具有更多细粒度细节的图像,该方法也提出了残差注意力模块去微调生成图像的细节信息。2)提出了“带有金字塔对比一致性模型的文本到图像的生成”方法,该方法引进了两个模块:金字塔对比一致性模型和堆叠注意力模型。金字塔对比一致性模型采用具有横向连接的自顶向下的结构在不同的阶段构成高级语义特征图,同时提出对比损失来指导生成器的训练。堆叠注意力模型为了解决之前的注意力机制不好的表现,该方法通过堆叠全局-局部注意力机制来生成具有更多细粒度细节信息的图像。3)将提出的方法在CUB和MS-COCO数据集上做了大量的定量和定性的实验,从而来证明本文中提出的方法的杰出性能。本文的“基于多分辨率并行生成对抗网络的文本到图像的生成”方法在CUB和MS-COCO数据集上分别将IS提高到了4.77和31.10,同时将R-precision提高到了74.84和89.30,而将FID分别降低到了19.25和23.75。本文的“带有金字塔对比一致性模型的文本到图像的生成”方法在CUB和MS-COCO数据集上则分别将IS提高到了4.65和26.52,同时将而将R-precision提高到了70.32和87.44,而将FID分别降低到了22.15和33.59。
其他文献
光场相机是一种新型的多目成像设备,通过单次拍摄可获取场景的空间和多视角信息。利用光场数据可以估计场景深度,在三维重建等计算机视觉领域具有广泛应用。目前,基于深度学习的光场深度估计性能得到了显著提升,但随着输入成本的增加以及网络的加深,现有的光场数据集难以支持大规模网络的训练。同时,经过合成场景训练后的网络,在真实场景下的估计效果不佳。围绕上述问题,本文对光场重聚焦原理以及EPI图像进行分析,开展光
随着互联网时代的发展,信息安全问题日益突出,数字水印作为版权保护和身份认证的手段备受关注。它常用于地质勘察和军事通信等领域。为了保护勘察信息,同时避免图像被恶意盗取和篡改,人们将需要保护的信息当作水印嵌入到图像中。又由于户外勘察会受到天气的影响,遇到雾霾天气时会使拍摄到的图像质量降低。为了提高图片的质量,去雾也成为研究的热点问题。针对以上问题,本文提出一种基于去雾加速器的数字水印系统,在去雾的同时
目前,全国主要的医疗机构基本上都搭建各自的网上预约挂号系统或者电话挂号系统,但是从近些年的运行效果来看,预约挂号的放号量和使用率都不高。而且存在一些问题,如上办事大厅虽然有统一接入平台,但是预约挂号的提示不明确,医院出诊表不统一,存在各式各样现象,人机交互程度较差,群众使用起来极为不便等问题,有些还是单一PC端网站预约挂号平台,这些平台已难以满足患者的需求。随着移动互联网技术已经突飞猛进发展,预约
生物特征识别技术是最有效的个人身份认证解决方案之一。随着生物特征识别技术的广泛应用,生物特征识别数据库的规模不断扩大。在这种情况下,快速匹配和检索技术越来越有必要。掌纹识别技术是近年来新兴的生物识别技术之一。在掌纹识别技术中,有多个子类别,包括低分辨率掌纹识别和三维掌纹识别技术等。研究者们已经提出许多掌纹识别算法。而对快速的掌纹检索的算法研究还处于起步阶段。哈希技术是最流行的图像检索技术之一,由于
随着科技的发展和公共安防需求的增加,智能监控系统的部署成为了一种流行趋势,其核心是行人再识别技术。本文首先简要介绍了行人再识别研究的意义、现状、挑战;接着深入研究行人再识别的理论知识,概述了行人再识别发展至今的经典算法;然后针对行人图片错位、遮挡、无关信息干扰等问题,对融合全局特征与局部特征的行人再识别算法进行研究,以上述两种类型特征的有效提取方法为切入点,做了以下研究工作和算法创新。第一个工作是
光场相机通过对单个场景进行多视角密集采样,使得高精度深度信息的挖掘成为可能,在深度传感器中不论在便携性还是深度精确性方面都具有显著优势。现有的深度估计方法不能很好处理遮挡和噪声问题,特别是对于包含遮挡区域的噪声场景,遮挡和噪声的同时存在将使深度获取难度进一步加大。本文分别围绕遮挡和噪声这两大难点问题对光场深度估计展开研究。论文的主要研究工作如下:(1)概述光场深度估计原理以及国内外的应用场景和研究
水下图像是获得水下场景信息的重要媒介之一,在水下探测、海洋研究等领域都扮演着重要角色。然而,光在水下传播时会与水体产生强烈的吸收与散射作用,导致水下成像质量下降,严重限制了水下的可视范围。因此,水下成像及复原技术在水下救援、海洋探索以及海洋目标识别等领域都有着重大意义和实际价值。本文首先针对水下图像中散射光去除的问题,采用分层思想分离图像中的散射光,实现了水下图像复原,提高了水下图像的质量;其次针
大数据时代,人们日常生活中处处都在积累着数据,从而导致大量的数据在不停的堆积,这些数据的内在价值是让很多学者们去研究聚类算法的动力。聚类算法的出现,使得巨大的数据得以发挥背后隐藏的价值。聚类有效性指标是对聚类结果进行评价,对于发现正确聚类数起到关键性的作用,然后现有指标存在簇中心分布很接近时难以得到正确聚类数、分离性处理机制过于简单、面向含噪声的数据集效果较差的问题。为此,本研究面向模糊聚类提出了
随着智能化信息时代的到来,校园学生对于获取信息的高效性也越来越重视。目前高校学生获取各类信息需要在不同的App和平台上进行,这对高校学生获取信息造成一定的局限性。在信息爆炸的时代,快速找到自己有用的信息对提高生活品质也显得必不可少。为此,需要搭建基于个性化推荐的、集失物招领、交友、经验交流、买卖交易为一体的校园学生互动管理平台。本平台采用个性化的推荐算法,为每一位学生提供个性化的服务,从而让用户快
卷积神经网络在计算机视觉领域得到了大量的应用,尤其是基于卷积神经网络的目标检测方法目前在学术界和工业界都受到了广泛关注。然而,由于卷积神经网络具有较高的计算复杂度,目前目标检测方法通常依靠大型服务器如GPU(Graphics Processing Unit)进行运算。但是,当前GPU平台存在功耗高、体积大以及成本昂贵等缺陷,使得基于卷积神经网络的目标检测方法难以应用于移动机器人、无人机等轻量化平台