基于生成对抗网络的场景文本编辑技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:chen20080310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本编辑是指,在尽量保持背景的前提下,将图像中的文本替换为同风格的目标文本。该技术在文本图像合成、广告设计、图像修复、文本信息隐藏、AR翻译等方面,有广泛的应用,近年来受到极大关注,并取得了重要进展。例如Wu等人提出的基于对抗生成网络的SRNet,已能较好地实现词条级的场景文本编辑。然而,在许多实际应用中,由于存在背景纹理复杂、文本风格难以准确捕捉、目标文本可能不与原文本等长等因素,场景文本编辑仍颇具挑战。本文提出SRNet+MS网络。该网络同SRNet,基于生成对抗网络框架,由背景修复、文本风格迁移和图像融合三个子网络组成,而与SRNet的不同之处有:(1)在背景修复网络中引入基于非局部连接操作的掩码注意力(MA)模块,旨在构建像素间的长依赖关系,并通过掩码约束实现更精确的背景修复。(2)在风格迁移网络中引入空间变换(ST)模块,替代SRNet的骨架引导学习机制,以便能够捕捉场景文本复杂的空间结构。所提网络仅在合成数据集上训练,未经调整即在真实数据集ICDAR13/17作验证。该网络在图像背景修复、场景文本编辑和视觉翻译方面,表现良好,效果优于SRNet。
其他文献
作为城市生活的关键载体,公共空间在住区规划设计中的重要性不断提升。德国住区规划设计以公共空间为主要驱动,在实践比较、经验汲取、规避教训和制定改进方向方面,值得我国深入研究。本课题服务于该系列研究,通过掌握德国住区发展的历史现象,分析其演变的内在规律,从而获得公共空间建设方面的工作经验,对其品质提升进行设计层面的解读。以二战后城市重建为契机,德国城郊住区进入阶段性、多样化实践探索并持续至今,其规划设
光探测技术是信息采集的重要手段,在军事、国防、工业生产、国民经济、科学研究、医疗设备、光通信等许多领域具有重要的应用,也是当前先进制造、人工智能等领域的核心支撑技术。传统硅基光电探测器目前应用最广,但受到硅材料光吸收和能带结构限制,在响应度、探测度等多个方面存在不足。近年来,新兴的石墨烯-硅异质结光电探测器以其卓越的整流特性、高响应度、高探测度、高稳定性等优点吸引了研究者的极大关注,目前其峰值响应
弱旋流预混燃烧技术凭借极低的污染物排放而受到国内外学者的密切关注,具有广阔的工程应用前景。目前很多关于弱旋流燃烧的研究只面向燃烧技术方案本身,而忽视了燃料/空气预混特性的影响。本文通过数值模拟和试验方法对弱旋流预混燃烧器的预混特性和燃烧性能开展研究。设计了不同的弱旋流燃烧器预混方案,对当量比为0.65的丙烷/空气预混气体进行数值模拟,分析了燃料喷射、旋流器结构和工况参数对掺混的影响机制。结果表明:
细菌引起的感染性疾病曾给人类社会带来灭顶之灾,但到1940年前后,随着抗生素进入临床,人类有了抵抗细菌感染的有力武器,人均寿命也有了大幅提高。与此同时,由于缺乏对细菌和抗生素的正确认识,抗生素滥用现象屡见不鲜,直接导致了耐药菌的不断涌现,这也成为悬在全人类头颅之上的达摩克里斯之剑。解决耐药问题迫在眉睫,随着相关研究的深入,已有研究发现耐受(Tolerance)是导致耐药(Resistance)可能
紫外线辐射对人眼和皮肤损伤是人尽皆知的。近年来,随着生活方式的改变以及工作和生活条件的改善,特别是电脑,手机,LED灯等电子产品的的普及,人们受到了比以前更多的蓝光照射。紫外波段附近的蓝光也渐渐走进了人们的视野之中。蓝光是自然光的重要组成部分,是波长为380nm至500nm的高能量可见光。大量研究表明:蓝光对人们的影响具有双重性,有害蓝光波段主要为415nm至455nm,人体晶状体无法阻挡它到达视
自2012年开展商业保理试点以来,商业保理企业获得快速发展,同时也呈现出许多不合规、不规范的现象,风险事件频发。商业保理法律制度不完善是长期困扰商业保理企业发展的一大问题,特别是商业保理监管立法缺失。商业保理企业监管规定长期以部门规范性文件、地方规范性文件等政策形式存在,监管规定内容不完善、效力层级较低且在全国范围内不明确、不统一。2018年,“商业保理公司设立与变更审批”被列入《市场准入负面清单
随着无线通信技术的飞速发展,人们对微波器件的性能要求逐渐向高性能、小型化和低成本的方向发展。滤波器作为射频微波器件中不可或缺的一部分,在无线通信领域中扮演着至关重要的角色。性能优异的滤波器可以很大程度上优化通信系统的性能。因此,小型化、性能优异、易于加工的微波滤波器也逐渐成为科学工作者研究的热门方向。本文基于平行耦合线结构的分析应用,设计了多种类型的滤波器,并通过仿真与加工得到证明,其中包括高频率
随着社会经济的发展,雷达的使用场景已经逐渐从军用向民用发展,尤其是毫米波雷达以其体积小、重量轻、检测精度高、全天候工作、制造成本较低及易于安装维护等优点,目前广泛应用于民用领域。传统雷达检测算法由于存在目标遮蔽效应,导致检测结果出现漏检现象。并且该算法较适用于雷达静止情况下的运动目标检测(Moving Target Detection,MTD),雷达运动状态下若雷达运动速度未知,则容易导致检测结果
大数据时代各领域产生的数据日益复杂,医药生物、公共卫生、金融保险、可靠性工程、环境监测等领域的数据由于测量设备、实验设计及数据收集方案等原因发生删失。本文考虑将混合Erlang模型推广到删失数据,建立基于删失数据的一元混合Erlang模型(UMEMC)。本文合理选取参数的先验分布,引入了两个潜变量,得到各模型参数的满条件后验分布,进一步设计灵活的MCMC算法完成参数估计。算法创新之处主要在于将删失
咀嚼是通过人体规律性收缩咀嚼肌达到破碎食物目的的过程,其对人类消化、吸收、摄取营养物质具有重要意义。本文利用有限元分析,根据人类咀嚼机理建立三维咀嚼过程模型,分析不同咀嚼模式、咀嚼速率对食物破碎影响,同时利用有限元软件中的流固耦合分析,模拟唾液在食品物料咀嚼过程中的作用,本研究为探究人类咀嚼机理提供参考和借鉴,同时也为仿咀嚼食品质地分析装置的研制提供理论依据。主要研究内容如下:1、人类牙齿表面的独