基于深度学习的任意风格迁移研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:sdwwaiwwsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像风格艺术化是指一幅图像的语义内容用另一幅图像的风格去表示。图像风格渲染是计算机视觉领域中重要的研究方向,在时装设计、电影产业、动画制作、游戏渲染等领域有着大量的应用。深度神经网络凭借其强大的图像表示能力,迅速成为一种流行的图像风格化工具,推动了近年来许多神经样式转移方法的发展。然而,现有的风格迁移方法主要关注迁移风格的多样性。神经风格迁移过程中将风格纹理应用于具有复杂空间布局的输入图像时,合成的图像往往会将风格元素均匀地分布在整个图像中,使得整体结构变得不可识别,对于覆盖深度范围很广的场景的图像更是如此;对于基础特征突出或结构变形敏感的输入,均匀分布的纹理进一步模糊了弱细节,破坏了原结构;对同一内容图像进行不同风格迁移时互相之间产生色彩干扰,导致图像的弱细节模糊,影响了视觉效果。为了对迁移结果的语义结构布局信息控制,增强风格化图像的细节信息,使得风格迁移的视觉效果更佳,提出了迁移色彩控制、结构细化的图像神经风格迁移。首先,搭建了并行的多层次多尺度的边缘检测网络。网络整体分为5阶段,每个阶段设置不同的步长。随着卷积步长不断增大,感受野变大,边缘特征图尺寸变小,从而获得多层次多尺度的边缘特征图,并对不同数量的边缘特征图在深度监督下进行加权融合,运用反向传播算法对每个卷积层提取的边缘特征图误差进行优化,多路径的反向传播优化加权融合边缘特征图的误差,获得最终误差最小的边缘特征图。其次,搭建编解码结构的深度神经抠图网络。网络的输入时内容图像和标注的Trimap连接形成的四通道输入,使用VGG-19的钱17层进行编码。解码器分为5个阶段,每个阶段包括一个反池化层和两个反卷积层,网络的最后一层设置具有Sigmoid函数的1×1卷积层,将元素阈值设为[0,1],生成精确的抠图遮罩。然后,搭建基于神经网络的任意风格迁移网络,主要是由四个常规卷积层,两个微步幅卷积和五个残差块。通过对常规卷积层后面引入自适应实例归一化将卷积层提取的特征图在对应的通道中匹配均值和方差,并且在特征通道中检测特定样式的笔触产生较高的非线性,自适应地计算仿射参数,保留内容图像的空间结构特性来细化生成图像的结构;用2个5×5的卷积核叠加替代1个9×9的卷积核,在相同的感受野下能够增加非线性,减少参数和计算量,使网络能学习更加复杂的内容。最后,通过编码器进行特征提取,将最具有代表性的信息输入到结构表示网络中,辅助子网络中的边缘检测网络和深度抠图网络分别对内容图像进行边缘检测和深度抠图处理,将结构表示网络的提取结果输入到主网络迁移网路中,约束风格迁移的纹理合成过程,将整个过程中产生的误差用损失函数计算网络进行表示,将其优化到最小,实现图像风格迁移,用解码器将合成的特征图映射成风格化图像。通过主观视觉对比发现,本文算法不存在风格化图像纹理均匀分布破坏结构布局,有效抑制了易变形输入的迁移结果扭曲,前后景及周围物体边界清晰,互相之间不存在色彩干扰风格化视觉效果较好。通过客观数据表明,本文算法在保留内容结构,细化语义信息,结合风格纹理方面都有较好的表现。
其他文献
随着列车运行速度的不断提升,传统的人力驾驶方式难以满足列车的性能要求,长时间、远距离、高密度地运行容易引起司机疲劳等安全问题,因此为了保证高速铁路安全、高效地运行,列车自动驾驶(Automatic Train Operation,ATO)系统必然成为列车控制的重要研究方向,其研究具有一定的现实意义及社会价值。本文首先对高速列车ATO系统进行分析研究,过程如下:对列车的行驶过程、受理情况及牵引制动系
基因微阵列技术的发展,使得研究人员能够快速、方便的获取大量的基因表达谱数据,这些数据为疾病在分子水平上的诊断和分析提供了新的可能,然而如何利用数据挖掘技术从中提取和分析有价值的信息已成为对基因表达谱数据有效利用的关键所在。基因表达谱数据通常包含成千上万的基因表达值,同时,由于基因表达的检测成本高,肿瘤病例的表达谱数据相对较少,造成高维度和小样本是肿瘤基因数据的主要特点,导致了无法避免的维度诅咒问题
改革开放以来,我国的经济水平及综合国力有了飞跃式的增长,这使得我国城镇化演变的进程得以快速发展,城市居民对于生活品质的追求不断提升。对于很多家庭来说,改善型住宅由非必要需求转变为必要需求。长久以来,我国区域发展不平衡,大型城市改善型住宅的开发建设较为成熟,而中小城市改善型住宅的发展则较为落后。做好中小城市改善型住宅项目的开发建设,不但可以缓和不同区域之间经济发展不平衡的矛盾,还关系到国家经济的发展
学位
学位
随着图像处理技术的发展,单一传感器采集到的图像所包含的信息已无法满足人们的需求,多传感器信息融合技术应运而生。图像融合作为信息融合技术的一个重要分支,是通过特定的方法对不同传感器从同一场景采集的两幅或多幅图像蕴含的有效信息进行提取并有机整合,得到空间分辨率与光谱分辨率较高的复合图像,以满足后续处理与研究的需要。本文研究的红外与可见光图像融合是图像融合领域的一个典例。可见光传感器所成图像分辨率高、背
随着计算机技术和人工智能的高速兴盛,智能化推动各个领域的创造和发展,多种智能配置融入到人们日常的方方面面。在计算机视觉中,采用摄影机和输入设备代替人眼视觉系统来实现目标分析、识别和处理等技术是当前计算机科学应用最为盛行的内容之一,例如在人脸识别、图像检测、视觉分析、医疗影像处理、自动驾驶和军事侦查等领域,都发挥着举足轻重的作用。但是,户外的计算机视觉成像系统容易受到自然天气条件的影响,其中雾、霾等
铁路移动通信技术是保障铁路运输安全生产的重要手段。近年来,伴随智能铁路发展进程,作为V2V(Vehicle-to-Vehicle,车对车)通信和协作通信的综合产物,T2T(Trainto-Train,列车对列车)通信技术迎来新的发展契机。这种无基站参与下以车为核心、轨旁设备最少化为特征的列车自组织直接通信方式。一方面可以用于列车碰撞防护,另一方面可以辅助基于车-地无线通信网络的列车控制系统。由于列
自谷歌发布基于知识图谱(Knowledge Graph,KG)的搜索引擎产品Knowledge Vault以来,微软Satori、搜狗知立方、百度知心等产品也紧随其后,知识图谱在行业内和学术界普遍引起关注。知识图谱利用实体和关系将客观世界中的对象以及它们的属性关系显现出来,为互联网中庞大的非结构化信息提供了一种行之有效的处理方式,通过知识抽取、知识表示和知识融合等一系列过程对开放域信息组织管理、消
学位