基于不完备视觉数据的识别与生成方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:noegen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不完备视觉数据指的是视觉样本类别信息不完备或其本身信息不完备的数据。随着科技的进步,越来越多的视觉数据被收集储存起来。但是与专业完备的数据集相比较,大多数场景下收集到的数据是不够理想的,也就阻碍了这些视觉数据进一步的理解与应用。本文旨在解决存在于不完备视觉数据的样本类别不完备和自身不完备两个问题,主要从两个方面进行展开,即不完备视觉数据的识别与生成。针对视觉数据类别不完备的问题,我们希望借助于类别完备的数据,来实现对缺乏标注数据类别信息的识别。并以零样本学习为目标,针对零样本行为识别、零样本图像识别,将在有类别标注数据上获取到的知识迁移到未标注类别数据之上,来完备标签信息缺失的未标注视觉样本。针对视觉样本本身不完备的情况,我们希望根据不完备的视觉数据,来生成其对应的各种情况下的完备视觉数据,并以多角度人脸的生成及识别、和基于生成对抗网络的人脸语义属性编辑为例,从不同的角度来完备视觉样本空间。本文主要提出了以下几个创新的内容和工作:1.本文提出一种基于视觉关联图卷积网络用于直推式零样本行为识别。我们针对零样本学习中的行为样本在视觉空间内包含了更丰富更精确的判别性特征,提出一种视觉关联的图卷积神经网络,用于可见类别与不可见类别之间知识的传播。所提出的视觉关联图谱把可见类别和不可见类别的视觉关系表示出来,还允许我们探索其中的层次知识,并在其基础上提出了一种分组注意力的图卷积神经网络,可以更好地挖掘标注数据和未标注数据的视觉关系,以实现未标注数据的识别。我们在三个具有代表性的数据集上进行实验和分析,结果证明了所提方法的有效性。2.本文提出一种基于全局关联模型用于零样本学习。我们针对类别完备的样本(可见类别)和类别不完备样本(不可见类别)之间存在着巨大的知识鸿沟这一问题,提出了一种整体关联模型。针对之前工作不能充分挖掘不同类别之间关系的问题,提出一种关系传播网络来解决的,该网络考虑了所有的可见类别和不可见类别的关系,并在此基础上产生不可见类别的典型特征。此外,针对不可见类别中存在的异常点,我们提出了一种渐进式聚类模块,该模块迭代地为未标注数据进行聚类,逐渐地将异常点吸纳到正确的簇中心内,并在此基础上执行类别级的标签匹配。由于我们的方法可以预测出典型的特征以及纯净的聚类结果,可以有效地消除了知识鸿沟。我们在五个数据集上广泛评估了该模型,实验结果表明,在这些不同性质的数据集上,所提出的模型优于最新方法。3.本文提出一种使用脸部光流的渐进式生成对抗模型合成多视角人脸的方法。针对大角度的人脸合成难以保持与原来的脸保持相同细节以及身份信息这一问题,我们提出“分而治之”的策略,将具有挑战性的大角度人脸合成划分为一系列易于进行的小角度旋转来解决此问题。我们综合了基于光流方法和基于生成对抗网络方法的优点,设计出了一种由面部光流引导的生成对抗网络来实现小角度的人脸合成。具体来说,所提网络由两个模块组成,一个面部光流模块,旨在计算输入脸和目标脸之间的密集对应关系。它为基于生成对抗网络的人脸合成模块提供了有力的指导,强调并突出的面部纹理细节。我们循环使用该模型以逐步合成不同视角下的人脸,同时保持了面部的细节以及身份信息。我们分别在理想情况和真实情况下搜集的数据集上进行实验,结果表明了所提方法在保持脸部细节以及身份信息的有效性。4.本文提出一种利用多张连续图像反转生成对抗网络实现人脸属性编辑的方法。针对现有反转生成对抗网络的方法不能兼顾重构的精确性和可编辑性这两点,我们通过将连续图像引入反转过程来解决这一问题。具体来讲,基于连续图像我们设计了两种约束,第一个约束迫使每个反转的隐编码都可以从另一个编码上进行语义访问,并固定在可编辑的范围中;第二个约束加强图像间的连贯性,以便每张重构图像的精确性可以与其他图像达到互补的最大化。我们分别在真实数据和生成的数据上进行实验,不管是从重构的精确性还是隐编码的可编辑性上来评估,我们的方法都明显优于最新的方法。此外,我们的方法还提供了一些有意思的应用,如基于视频的生成对抗网络反转,以及从连续图像进行无监督语义转移等。
其他文献
有机电致发光器件(OLED)具有轻薄、低功耗、高对比度、自发光以及可柔性等优势,在显示与照明应用领域中大放光彩。有机电致发光材料作为OLED的核心组成部分,一直是学术界和产业界的研究热点。当下,提升蓝光OLED的性能、发展纯有机的电致发光材料是OLED显示技术的革新方向,也是我国在新一代显示领域打破国外技术垄断的重要突破口。从材料设计角度,开发兼具高固态发光效率(?PL)和高激子利用率(?r)的有
化工园区作为一种化工产业发展模式在全球范围内已逐步实现常态化。石油和化工产业的园区化发展必然导致危险源高度聚集,加之化工园区资本密集、技术密集、人员密集等特点,客观上导致化工园区处于高风险状态。除了从本质安全层面着手,尽量减少事故发生的可能性之外,还应着重提升事故应急响应能力,以求最大程度减少人员伤亡及财产损失,降低社会负面影响。化工园区应急响应具有应急决策的动态性与层次性、应急救援与疏散的冲突性
面对日趋激烈的市场竞争以及日益增长的创新需求,越来越多的组织采用团队运作方式,以敏捷处理单个员工无法快速独立完成的复杂性任务。团队成员间的有效知识交流为创造性解决方案的提出与运行提供了保障。然而现实情况却是,即便是各组织采取多种举措试图鼓励员工进行知识交流(如培育共享文化、搭建共享平台、打造开放的办公空间等),团队成员间的知识隐藏现象仍旧非常普遍。因此,厘清团队成员尤其是团队咨询网络核心成员知识交
飞机梁肋结构件通常服役于恶劣的腐蚀环境下,在长时间的腐蚀环境作用下易发生腐蚀损伤,严重威胁飞机适航性和安全性。轻微腐蚀受损件可通过打磨后采用激光喷丸等表面强化方法进行修复后再次投入使用。受损件经过打磨除腐后,表面将形成由平面、凸圆弧面、斜面、凹圆弧面等组成的复杂几何形状。这些形状以及边缘效应的存在可能会对激光喷丸修复质量(残余应力、疲劳寿命、表面完整性等)产生不良影响。因此在飞机受损件激光喷丸修复
齿轮传动系统在汽车、船舶、航空等众多领域中应用广泛,故障齿轮的振动信号总会表现出幅值调制和频率调制的特征,利用振动信号调制边带的变化规律来进行齿轮故障诊断具有重要的研究意义和工程实用价值。基于单级定轴轮系的动力学模型,考虑系统存在谐波形式的转速波动,理论上分析了齿轮在平稳型、冲击型故障时振动响应信号的频谱特征,并提出了新的平稳型故障振动信号调幅调频数学模型。所提模型在调幅部分和啮合频率载波部分中都
无人机、无人车等自主系统在复杂环境中安全运行和做出运动路径的规划,需要有强大的环境感知能力,使系统能够获取机身周围的三维数据。双目立体视觉是获取真实场景三维数据的常用方法,但是立体匹配算法复杂,一般难以同时满足实时性和精度要求。全景图像可以突破相机视场大小的限制,全方位的展示出水平视野范围内的所有事物,结合头戴显示器可以得到临场感和沉浸感强烈的视觉体验。FPGA因其丰富的逻辑资源和特殊的硬件结构,
“三农”问题是关系国计民生的根本性问题,实施乡村振兴战略,是解决新时代我国社会主要矛盾的迫切要求。然而,目前我国农业的弱质性、高风险性以及分散生产等特性,使农户难以通过传统融资途经获得充足的金融资源,农业产业化发展受到严重的制约。订单农业与供应链金融日益发展,为解决农业“融资难”的问题指明了方向。此外,由于在订单农业中“小农户”在供应链中处于绝对的劣势地位,使其很难在完全自由市场中获得收入保障。因
氢气是一种理想的能源载体,其燃烧值高、产物无污染、来源广泛。电解水制氢是生态友好、可持续的氢气生产方式中最有前途和吸引力的方法之一。但该技术目前存在着制氢效率较低、成本较高的问题,制约其商业化。因此,通过开发高效、廉价、稳定的催化剂来降低电解水制氢的成本,对实现大规模电解水制氢具有重要的意义。鉴于此,本论文研究工作致力于开发高效、廉价、稳定的水分解电催化剂、揭示所制催化剂表面电催化机理、构筑规模化
聚合物基正温度系数(Positive Temperature Coefficient,PTC)材料是近年来发展起来的一种新型温控材料,具有自适应强,安全可靠,易加工等优点,已成为发展最快的智能温控材料。但目前研制的聚合物基PTC材料居里温度点普遍较高,不能满足大部分元器件的温控需求,且材料在长期使用过程中易出现稳定性和机械性能下降等问题。本文主要从降低材料的室温电阻率和渗流阈值,提高材料PTC强度
热塑性塑料因其具有快速成型,可反复加工等优点在工业生产中用途广泛。超声焊在热塑性塑料的装配领域有着重要意义。传统的超声焊接工艺一般由操作者目测判断工件焊孔位置,并手工引导固定有焊头的机械手移动直到记录下所有工件焊孔的位置信息,之后对焊接路径进行编程完成焊接,这一过程不但耗时耗力,而且其精确程度依赖于工人的经验,还易于出错,因此有必要提出一种可以自动完成焊接工艺的焊点寻址导航系统。汽车作为近年来重要