基于深度度量学习的零样本图像分类

来源 :天津大学 | 被引量 : 0次 | 上传用户:chenhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习在计算机视觉中取得的成功,其被广泛的应用于图像分类算法中。大多算法依赖于数量庞大的带标注训练数据,然而有的数据样本很难获得并且样本的标注也需要花费大量资源。因此为每一个待识别类收集足够多的样本并且给予样本充足的标注信息成为基于深度学习分类算法的难题。为解决这一问题,研究者们提出了零样本学习(Zero-Shot Learning)技术,这种方法借助样本的语义信息完成训练,例如标签类名的词向量或属性信息等。通过对可见类和未见类共享语义信息,零样本学习技术构建一个用以对齐语义信息与视觉信息分布的模型,达到从可见类到未见类的知识迁移。因此在分布对齐过程中,视觉特征和语义特征相似度的度量是零样本学习中的一个重要研究问题。为此,本文从深度度量学习的角度审视了零样本学习问题,设计了一种统一的学习模式。该模式首先将视觉特征和语义特征嵌入到一个共同空间(视觉空间或者公共空间),然后通过深度度量网络重建一个更具分辨性的度量空间,并且通过关注不同模态的负样本,进行两种模态的分布对齐,并在该空间实现最终分类。具体地,针对深度度量网络及其损失函数的特点分别提出两种深度度量学习的零样本方法。首先提出一种利用双三元组网络挖掘数据分布特征的方法。首先双三元组度量学习网络使用属性引导的三元组网络训练属性特征作负样本的三元组;其次使用视觉引导的三元组网络训练视觉特征作负样本的三元组;最后提出一种高效的难分辨三元组挖掘策略来提高训练效率和性能。然后还提出一种利用跨模态N-pairs网络在两种模态上进行高效信息交互的方法。跨模态N-pairs度量学习网络主要包括两部分:属性模态的N-pairs网络训练包含若干个属性模态负样本的N-pairs;视觉模态的N-pairs网络训练包含若干个视觉模态负样本的N-pairs。在此基础上引入一种难分辨正样本挖掘的多类Npairs策略,来提升跨模态N-pairs度量学习网络的分类准确度并且节约训练开销。通过实验,最后以上两种算法在Aw A、CUB和a PY三个基准数据集上进行了大量的实验,来验证各部分对模型的影响,并对比了其他算法来证明其有效性和先进性。
其他文献
微化学反应器是一种能够通过控制化学反应的流速等方式控制化学反应进程的微型化学设备,可以大大缩短反应时间提高反应效率并且集成化程度高,可以与微小的传感芯片相集成,近年来得到越来越广泛的重视。追踪微化学反应对于表征化学反应进程中的相关参数,如化学反应速率、转化率、平衡常数、最适温度等发挥了很重要的作用。现有的一些方法通常不易与微化学反应器集成,因此不适用于微化学反应中并且无法实现实时在线检测。为了实现
瞬变电磁全波勘探需要记录供电电极或线圈在正向导通、正向关断、反向导通和反向关断时瞬态响应的全过程,需要同步记录不同位置的多组瞬态响应信号。这些信号幅度小,需要高精度、高分辨率、多通道的数据采集系统对瞬态响应进行采集。本文设计了瞬变电磁全波勘探数据采集系统,主要用于地表浅层的地质勘探。以瞬变电磁理论为基础,通过麦克斯韦方程组及电极激发的电磁场的轴对称性设计了势函数,对电极激发的瞬变电磁场响应进行了推
随着人工智能的快速发展,卷积神经网络(Convolutional Neutral Network,CNN)在图像处理,目标检测等领域发挥着越来越重要的作用。然而在很多的时候,使用CPU和GPU在处理这些大数据时存在诸多弊端,存在着速度慢,成本高,功耗大等缺点,无法满足CNN低功耗低延时推理的需求。现场可编程逻辑门阵列(Field-Programmable Gate Array,FPGA)则可以轻松
胸部X光(CXR)图像是诊断肺炎的重要依据,通常需要专业医生或者放射科专家进行解读和诊断。人工解读CXR图像耗费了大量时间和人力,且容易受主观因素影响导致误诊。因此,从CXR图像中自动检测肺炎病灶区域具有重要的实用价值。本文中采用深度学习技术,研究了CXR图像中肺炎病灶的检测方法,主要研究工作如下:1、针对CXR图像中肺炎病灶检测算法精度不高的问题,提出了基于Faster R-CNN的肺炎病灶检测
近些年来,基于视觉的移动机器人即时定位与建图(Simultaneous Localization and Mapping,SLAM)问题吸引了国内外学者的广泛关注。SLAM虽然只是机器人执行众多任务中的一环,但却为机器人运动、导航、娱乐等上层应用提供了自身定位信息,而机器人能够精确的定位是完成这些任务的前提。针对传统视觉SLAM算法中,光照、视点变化导致环境特征提取和特征追踪不稳定从而影响定位精度
本文通过对无模型自适应控制(Model-Free Adaptive Control,MFAC)的研究,分别在控制律的计算优化和针对系统伴随噪声干扰的问题上对无模型自适应控制算法进行优化改进。提出一种基于改进跟踪微分器的MFAC去噪方法和一种基于输出误差变化率来计算控制律的新方法。同时,对每一种方法在数学上都证明了输入输出信号的收敛性。最后,对本文提出的每一种改进的算法都进行了验证,来阐明本文算法的
随着工业生产水平的提高,相关工业过程的控制精度要求也逐渐增高。然而,实际生产中存在的各种不确定性与扰动将直接或间接影响控制精度,进而影响产品的最终品质。本文以自适应动态规划相关控制技术理论为基础,针对非线性系统在各种不确定性和干扰影响下的鲁棒控制问题进行研究。文章主要从理论研究和相关应用场景两个方面进行展开,并针对具体场景进行分析与设计。本文首先考虑了不确定非线性系统的鲁棒跟踪控制问题。考虑非线性
网络数据挖掘在通信网络,交通网络和社交网络在内的许多网络中具有众多应用。网络数据的激增不仅带来了新的机遇,也带来了新的挑战。与网络挖掘有关的许多研究问题中,链接预测具有根本的重要性。预测网络中节点间的关系的问题称为链接预测。链接预测旨在基于当前观察到的链接来预测网络中丢失或未来的链接关系,进而来推断网络链接的形成过程。在社交网络中,社会联系的建立不仅取决于个人的内在兴趣,而且还取决于其邻居节点在人
在近些年中,深度卷积神经网络有了迅速的发展,它已经应用于多个领域,包括图像分类、物体检测、语义分割等等。随着在这些任务结果精度的提升,网络的结构也越来越复杂,占用空间也越来越大。然而,实际应用中,比如应用在手机等设备上,我们往往无法提供足够的计算资源和存储空间给这些重量级的网络模型。所以模型压缩成为了深度神经网络发展的一个重要研究方向,本文研究了一种名为知识蒸馏(knowledge distill
随着现代服务业的发展,服务生态系统逐渐形成并迅速发展。为了满足越来越个性化、专业化和复杂化的用户需求,往往需要多个领域服务共同合作。然而服务的来源是社会性的,这种社会性加剧了服务供给的多样性、不确定性和动态性。领域服务之间存在业务和数据等方面的不一致问题,这对领域服务的交互提出了挑战。因此有必要研究如何将领域服务进行跨界融合以满足用户需求。本文提出了一种应用于服务生态系统的Trans BC(Tra