【摘 要】
:
随着深度学习的迅猛发展,人工智能技术已融入人们日常生活的方方面面,拍照购物、刷脸支付、旧照新颜、智能换脸,人工智能所赋能的落地应用随处可见。这些应用背后一项重要的技术便是对于图像中物体的建模。物体是由部位组成的,因此,基于部位的图像建模是一种契合物体固有属性的,基础而重要的图像建模方式。然而,部位建模存在以下问题:部位信息的标注代价巨大,依赖部位标注的建模方式难以大规模拓展;无需标注的自动部位检测
论文部分内容阅读
随着深度学习的迅猛发展,人工智能技术已融入人们日常生活的方方面面,拍照购物、刷脸支付、旧照新颜、智能换脸,人工智能所赋能的落地应用随处可见。这些应用背后一项重要的技术便是对于图像中物体的建模。物体是由部位组成的,因此,基于部位的图像建模是一种契合物体固有属性的,基础而重要的图像建模方式。然而,部位建模存在以下问题:部位信息的标注代价巨大,依赖部位标注的建模方式难以大规模拓展;无需标注的自动部位检测又极具挑战,所获取的部位信息的语义一致性(在不同样本中定位的部位有相同语义)较差,且难以定位到细小部位。本文围绕部位信息的学习和应用展开研究,由浅入深地研究了三种部位学习的方式:首先针对已有自动部位检测工作中部位定位不准确、语义一致性较差等问题,研究了如何更加准确地显式预测出给定图像中各个部位的位置信息;接着针对显式部位学习中训练复杂、计算量大等弊端,设计了更加高效简洁的隐式部位学习方法,将物体部位的建模融入到网络训练或特征提取的过程中;最后,延续隐式部位学习的研究,进一步讨论了图像生成中如何进行部位建模,从而验证了部位建模的泛化性。在部位信息的显式学习方面,本文研究如何精确定位到细小的、具有语义一致性的部位信息,提出了多注意力网络和渐进注意力网络模型。首先,针对部位定位和特征学习常作为两个独立阶段进行优化而无法得到全局最优解的问题,本文提出了一种基于多注意力模型的弱监督部位学习方法,通过设计可反向传播的通道分组层和相应的弱监督损失函数,使得部位定位与特征学习可以在神经网络中端到端训练并实现互相增强。此模型综合利用了图像类别信息和物体部位的空间先验信息对数据集中隐含的结构化信息进行挖掘,可以较为鲁棒地在多个数据集中定位出具有高度一致性的部位,并能大大提高细粒度识别问题的识别准确率。进一步地,为了精确定位到更加细粒度的部位,本文提出了一种渐进注意力网络,通过设计注意力修正机制,实现初定位和放大修正两阶段部位定位,有效减小了定位偏差。迭代使用此模型可以建模部位间的空间层级关系,实现多尺度部位的精细化特征表示,进一步提升细粒度识别问题的识别准确率。在部位信息的隐式学习方面,本文研究如何高效地将部位建模融入到网络训练或特征提取的过程中,提出了注意力采样网络和深度双线性网络。首先,针对显式部位学习中超参较多,训练过程复杂,计算量大等问题,本文提出了三线性注意力采样网络。此模型首先通过建模特征通道间的关系,增强了特征通道所表达语义的鲁棒性;然后通过设计注意力采样模块,将部位信息存储于重采样的图像;最后通过知识蒸馏的训练方式,将部位信息高效融入卷积神经网络。进一步地,为了设计一种更通用的网络架构,将物体部位的建模融入到每一层网络的特征提取中,本文提出了一种深度双线性网络。此网络将部位建模和高阶特征表达进行有机结合,通过设计语义分组约束的分组双线性模块,增强了隐式部位特征的语义表达能力,同时降低了高阶特征的维度,使其可被高效集成于深度网络多层结构中。在上述两项工作中,所提出的方法均有效提高了模型的表达能力,在细粒度识别任务上取得了显著的提升。在部位信息的生成式学习方面,本文研究如何在生成对抗网络中学习并利用部位信息,并提出了一种语义感知网络。具体地,此处延续对部位隐式学习的研究,并将其拓展到图像生成任务中,发现通过对生成网络的隐空间进行语义解耦,可以有效简化隐空间到图像空间的映射,助力合成高质量图像,并实现对生成图像中特定语义部位的控制。此工作中设计的语义解耦模块和语义信息融合模块,可以有效提取并利用生成网络中的部位信息,从而建立语义部位可操控的图像生成模型。
其他文献
互联网的蓬勃发展带来了海量的文本内容,分析和归纳这些文本内容是常见的任务。其中,主题模型是一种分析文本内容的常用方法。这类方法通过构造一个关于文本、主题和词语作为随机变量的联合概率分布,并估计概率分布中参数,最终得到文本和主题以及主题和词语之间的概率关系。主题模型得到的联合概率分布,被广泛用于如搜索引擎、知识图谱、广告推送、舆情监控等应用领域。近些年来,微博、脸书等社交媒体的广泛使用,让短文本成为
细胞内的亚细胞结构在生命活动中扮演着重要的功能角色,其形态功能的研究对于解析生命过程和重要疾病的发生具有重要意义。目前对亚细胞结构的动态研究依赖于荧光标记技术,但引入了荧光染料的光漂白和光毒性对细胞造成的额外压力,导致其进行活细胞长时间动态过程研究的困难。近些年发展的基于相位的无标记成像能够成功地可视化这些亚细胞结构而不会对其正常的生理状态造成干扰,但也由于其无标记特性而缺乏特异性,很难对于特定的
随着物联网的强势发展,各种新型物联网应用与技术手段层出不穷。其中,两方面的技术发展引起了人们的广泛关注。一方面,无源反射通信技术的出现极大降低了通信能耗,打破了能量瓶颈限制物联网发展的局面。另一方面,基于物联网的行为感知技术有效扩展了物联网技术的应用场景,成为万物互联的重要环节。本文的工作将这两方面的研究进行有机结合,实现基于无源反射技术的人体行为感知与身份认证。本文的工作无需增加额外设备,仅以无
表面增强拉曼散射(SERS)具有不同于传统检测技术的独特优势,比如水的干扰小、检测过程简单快捷、样本处理要求低且能提供分子指纹图谱等,从而被大量应用于生物医学分析、化学反应监测、物理表征等诸多领域。尽管如此,SERS技术在实际应用过程中仍面临一些问题,比如基底的检测性能低于预期、普适性差、成本高等。其中,基底检测性能的优化是SERS技术中亟需解决的关键问题,这通常与基底的灵敏度密切相关。目前,提高
随着自由曲线曲面造型技术的日渐成熟,非均匀有理B样条(NURBS)已经成为工业产品几何形状的标准表示。等几何分析(IGA)把用于表示几何的基函数用于分析,避免了传统有限元(FEA)耗时的网格化。由于NURBS网格的张量积结构,几何建模中会引入大量的多余控制点,并且基于NURBS的IGA无法对曲面进行局部细分,于是出现了很多定义在T网格上的可局部细分样条。在实际应用中,常常需要对三维实体进行建模和分
视频已经成为大数据时代最重要的信息载体之一。相比静态图像,动态视频包含更多的视觉信息和听觉信息,更为复杂多义,所以对视频处理、分类、推荐等常见视频相关任务提出了更高的要求。人体动作识别一直以来是视频理解中最重要的课题之一。它可以应用到虚拟现实、人机互动、智能监控和视频检索等领域中,还可服务于短视频、直播平台、视频网站等相关应用,为视频个性化推荐、舆情监控、广告投放等业务提供技术基础。在视频中,人体
平均场随机控制(Mean Field Stochastic Control)是指基于平均场交互的多维可控状态过程和目标泛函下的随机控制问题。作为一类重要的平均场随机控制问题,平均场博弈(Mean Field Game)考虑大规模参与者具有平均场交互动态系统的微分博弈问题。处理平均场随机控制和博弈的核心方法是通过研究代表性参与者的一维控制问题来构造有限系统的逼近Nash均衡,从而克服在计算均衡策略时
原子和分子是物质的基本组成单元,因此研究原子分子的性质有助于拓宽人们对物质结构的认知,促进人类对微观世界的理解。原子、分子与电子和光子的相互作用普遍存在于星际空间、等离子体、核聚变以及原子分子反应过程中,所以原子分子的内部结构及其激发态动力学参数在天体物理、大气物理、等离子体物理、化学和生物等相关学科有着重要的应用。因此,发展现有的实验技术,提高原子分子激发态动力学参数的测量精度,不但对理解原子分
荧光集光太阳能光伏器件(Luminescent Solar Concentrator,简称LSC)可以减少对太阳能电池的使用,是太阳能光伏技术应用较为前沿的一个研究方向。近年来,研究者对LSC的研究取得一系列进展,然而制作成本高,器件效率低等问题也影响着LSC的进一步应用。此外,由于LSC制作较为复杂、研发周期较长,限制了 LSC的效率优化和新技术在LSC中的应用。本论文利用蒙特卡洛光线追迹模型对
生物质燃烧排放的有机气溶胶严重降低空气质量、破坏大气环境、危害人体健康,甚至威胁人类的生存。有机气溶胶包括一次有机气溶胶(POA)和二次有机气溶胶(SOA),能够通过吸收太阳辐射改变全球辐射平衡。有机气溶胶的吸光特性取决于其分子组成。因此,研究生物质燃烧有机气溶胶的吸光特性和分子组成对于评估生物质燃烧对大气辐射的影响具有重要意义。然而,生物质燃烧有机气溶胶的吸光特性和分子组成在大气过程中是动态演变