基于深度神经网络的文本生成图像方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:gqkhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本生成图像,旨在基于自然语言文本,生成与文本语义相符且较为逼真的图像。该任务是一个跨模态的研究问题,涉及到自然语言处理和计算机视觉两个研究领域。文本生成图像可以广泛应用到计算机辅助设计,智能医疗以及新闻图片生成等领域,已经成为当前研究的热点问题。早期的图像生成方法大多基于噪音数据生成图像,无法控制生成图像的内容。随着条件生成对抗网络的提出,当前的文本生成图像方法大多基于条件生成对抗网络,利用文本作为条件向量约束图像的生成。现有的工作对该任务做了许多探索,如基于多模态语料预训练的文本编码方法,层级的图像生成策略以及注意力机制的引入等。但目前的文本生成图像方法仍然存在一些问题。首先,现有的方法大多依赖文本-图像数据对进行训练,而训练数据的获取需要耗费大量的人力物力。这对很多应用领域并不现实,使得当前的文本生成图像方法很难推广到其他领域。其次,现有的文本生成图像方法大多基于端到端的训练方式,只使用了文本与图像的对应关系,而忽略了其他可能利用的属性信息,模型的可解释性较差。本文针对上述两个问题开展研究,主要工作如下:1.提出了一种基于循环生成对抗网络的文本生成图像方法,基于无监督学习训练文本生成图像的模型。当前的文本生成图像方法大多是基于文本-图像数据对进行训练的,而标注数据的获取难度限制了文本生成图像的应用场景。针对该问题,本文借鉴循环重构的思想,提出了跨模态的循环生成对抗网络模型CMCG(Cross Modal Cycle GAN)。CMCG在更大规模的多模态语料中预训练文本嵌入表示,在判别器中使用数据集中的随机图片产生的对抗损失约束生成图像的真实性,在生成器中引入两组循环重构损失对齐文本和图像的语义特征。在CUB和Oxford Flower数据集上的实验结果说明了方法的有效性,生成图像质量取得了较基线模型更好的效果,在图像与文本的一致性上也有较好的习得。2.提出了一种引入细粒度属性信息的文本生成图像方法,利用当前图像生成模型忽略的细粒度属性提高模型的性能。现有的文本生成图像模型大多没有考虑图像本身存在的细粒度的属性信息,然而这些特有的属性信息对图像生成质量的提高至关重要。针对该问题,本文提出了一种融合属性信息的文本生成图像方法AF-GAN(Attribute FusedGAN)。AF-GAN对文本信息,类信息以及细粒度的属性信息分别进行编码并将融合后的信息通过胶囊网络转码为条件向量生成图片。针对之前图像语义评价的不足,本文提出了一种新的度量指标-细粒度属性匹配分数FAMS(Fine-grained Attribute Matching Score)。FAMS用于测量生成图像与对应文本的一致性,也可以直观地体现模型对属性信息的学习能力。在CUB数据集上的实验结果说明引入细粒度属性信息对生成图像质量的提高以及图像语义信息的习得均有较大的帮助,同时模型的可解释性得到了提升。
其他文献
学位
学位
学位
多机器人系统的研究近年来越来越受到科研工作者的关注,相比于结构复杂但是任务执行能力有限的单体机器人,由多个结构功能较为简单的机器人组成的多机器人系统通过成员间的能力互补和行动协同可以完成单个机器人难以完成的任务,并且具有良好的鲁棒性、可扩展性等优点,具有良好的应用前景。尽管近年来的研究使得多机器人系统的自主智能得到了很大提高,但是受制于当前技术水平,当多机器人系统所处环境或执行任务较为复杂时,其仍
预应力混凝土小箱梁桥在现役中小跨度桥梁中占比较大,因环境和人为等因素情况出现不同程度的病害损伤,日益增加车辆荷载进一步加剧病害发展,结构因病害逐渐老化,影响桥梁耐久性甚至安全性,因此在役桥梁极限承载能力研究显得无比重要。本文以一座具有底板混凝土破损、预应力钢绞线和钢筋断裂复杂病害的预应力混凝土连续小箱梁桥为背景,从特殊检测评定、足尺荷载试验和数值分析三个方面进行极限承载能力研究,并基于承载能力结果
流量分类可以检测流量的来源,可用于网络管理和网络安全。近年来加密流量识别领域研究中广泛使用的流统计特征易引发漂移问题,随着时间和地理等因素的改变,分类准确率会明显发生降低。标准web服务的兴起导致服务耦合现象加剧,移动端加密家族应用流量的识别因此会产生分类歧义问题。对于包含标准web服务的移动端家族应用,分类准确率将会严重下降。一些相关研究的结果表明相同的应用分类模型在对普通应用分类效果超过80%
文档实体关系抽取是自然语言处理领域的基本任务之一,文档级的实体关系蕴含于多个句子,相较于句子级的关系抽取具有更复杂的实体交互方式。论文侧重研究文档级的关系抽取,采用路径推理表示实体的复杂交互,提高实体的特征表达能力;同时,针对实际应用场景中关系标签的不平衡性和稀疏性,采用辅助学习的方式引入实体间关系存在性判断,减少无关噪声的干扰。具体工作如下:(1)实体多粒度语义的文档级关系抽取模型:面向复杂关系
阻抗控制能决定机器人与环境之间的交互力以及运动轨迹的动态关系,可以让机器人更加柔顺地执行任务或与环境进行力交互,被广泛应用在机器人控制中。然而阻抗控制需要根据任务需求来确定刚度等参数,与非结构化环境交互或执行一些具有不确定性的动态任务的效果并不理想。基于学习的变刚度控制方法虽然能对机器人的刚度进行调节,但不够直接,且会增加系统的成本。而人类能够自适应调节人体的刚度,从而灵巧且安全地完成一些复杂操作
学位
随着地铁在各个城市开始广泛修建,不同的城市由于地理位置不同会存在不同的地质条件,相应地也会带来不同的施工问题,本文依托西安地铁9号线(临潼线)田王-洪庆区间隧道工程,开展了渡线段施工技术、断面转换技术、风道施工技术、地震荷载下隐伏地裂缝的动力响应等研究。(1)分析了渡线段不同断面所用到的不同施工工法,通过数值模拟方法对E断面(中洞法)与D断面(双侧壁导坑法)、C断面(双侧壁导坑法法)与B断面(CR