面向多媒体最近邻检索的深度紧致编码学习

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xtopg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机和网络技术的快速发展和普及,多媒体数据越来越多样化并在网络和社交媒体上呈现出爆炸性增长的趋势。如何有效管理、检索和利用这些庞大的多媒体数据成为了国内外工业界和学术界共同关注的问题。基于紧致编码的最近邻搜索技术具有占用空间小,计算复杂度低等优点,已经被广泛应用于多媒体数据的管理和分析。在本文中,我们较为全面的研究了面向多媒体数据最近邻检索的紧致编码学习算法。针对单模态和多模态等不同应用场景我们分别提出了不同的新颖算法提高最近邻检索的性能,针对无监督和有监督等不同数据类型,我们提出了不同结构来有效约束哈希编码的学习过程。同时,我们进一步分析了基于深度学习的紧致编码技术存在的安全问题,提出了面向深度哈希的对抗样本生成算法。本文的主要研究内容可以概括如下:(1)针对单模态有监督最近邻检索,提出了一种基于双路的深度哈希算法。本算法设计了图像流网络和类标流网络,通过类标流网络对不同数据类别学习特定的中心表示从而降低图像网络所学特征的类内差异性,同时本方法能够考虑多类别之间的相互依赖关系,高效的处理多类标数据。通过同时学习哈希编码和类别中心,本方法能够降低多类标数据的类内差异性并提高学习哈希编码的有效性。(2)针对单模态无监督最近邻检索,提出了一种基于语义结构的无监督哈希算法。现有的有监督哈希算法通常利用类别信息构建语义结构来指导哈希编码的学习并取得了非常好的效果。然而在无监督情况下,我们无法利用类标信息构建相似矩阵。在本文中,通过对训练数据深度特征的统计特性进行经验性分析,我们提出了一种无监督语义相似矩阵的构建方法。通过将学习到的语义相似矩阵引入到现有的无监督哈希学习框架中,本算法能够利用传统有监督的损失函数,对不同数据之间的相似关系进行优化。大量实验表明本文所提方法能够得到更优化的哈希编码。(3)针对跨模态有监督最近邻检索,提出了一种深度跨模态哈希检索算法。本算法同时考虑了类别间和类别内等多种成对约束,并引入了新的针对哈希编码的正则项对哈希编码之间的相关性进行降低。通过端对端的优化训练,本算法能够从图像直接得到哈希编码,增强了特征学习和哈希编码的协同性。大量的实验分析验证了本文所提方法的有效性。(4)针对跨模态有监督最近邻检索,进一步提出了基于深度量化的检索算法,是最早将量化学习引入到深度跨模态检索中的工作之一。本算法显式的构建了模态间共有空间和各模态独有空间。通过将数据映射至核希尔伯特空间学习多模态数据的共有表示和各模态的独有表示,本算法能够有效的对多模态数据进行解耦合。最后,在共有空间中,本算法利用类标一致的量化学习对特征进行量化编码,在保持模态内和模态间相似性的同时能够有效降低量化损失,提高编码效率。(5)现有研究表明深度图像分类模型非常容易受到对抗样本的攻击,这也给基于深度学习的紧致编码算法带来了安全方面的关切。基于此,本文研究了现有深度哈希编码算法对对抗样本的鲁棒性。通过分析现有深度哈希算法和图像分类中的对抗样本生成算法,本文提出了一种新颖的针对深度哈希近邻检索的对抗样本生成算法,并在不同设置下验证了对抗样本的泛化性能。根据实验结果分析,本文进一步提出了一种简单有效的黑盒子攻击算法。综上,针对多媒体数据类内差异性大,模态之间的语义鸿沟以及紧致编码学习过程中量化误差较大等问题,本文提出了四种改进学习算法有效的克服了现有算法在这些问题中的不足并取得了较好的性能。同时本文提出了一种针对现有深度哈希模型的对抗样本生成算法,对当前深度紧致编码学习方法的安全性进行了研究。大量的理论分析和实验验证了本文所提方法的优越性。
其他文献
人脸表情识别技术是一个涉及到心理学、生物学、计算机学等等多门学科的交叉产物,由于人脸表情识别研究具有极高的应用价值和研究意义,近十年来,一直是人工智能领域的一个研究热点。得益于硬件技术的提高和深度学习技术的发展,人脸表情识别研究对象已经从实验室控制表情样本转移到了自然场景表情图像,同时也促进了人脸表情识别相关应用市场的蓬勃发展。反过来讲,迅猛发展的应用市场又对人脸表情识别研究提出了更高的要求,例如
利用机器可读的人类知识来赋予计算机权力一直是人工智能的长期目标。通过知识收集的进步,这一目标取得了巨大进展。在过去几十年中,自动知识库构建引起研究团体的广泛关注,并在以实体为中心查询应答方面取得重大进展。知识图谱因存储有关常见实体的事实,自然成为语义搜索核心。如今,公开可用的知识图提供数百万个实体(例如人,组织,位置以及诸如书籍,音乐等创意作品)以及数十亿个有关实体的陈述(例如谁在哪里学习,哪个国
海量视频图像下的高性能视频目标跟踪技术已广泛应用于安防监控、自动驾驶、人机交互以及精确制导等民用和军事领域,是当前计算机视觉和人工智能领域的研究重点。理想的视频目标跟踪系统应当具备精准捕获和长时稳定跟踪目标的能力。然而,受复杂背景和高动态场景变化的影响,跟踪性能往往具有较大的局限性。跟踪中,如何更好地建模感兴趣目标,增强其表征能力,并准确估计其位置是亟需解决的关键问题,具有重要的理论和实际意义。早
氮化镓材料相对于传统半导体材料具有高击穿场强、高电子迁移率和饱和速度,高温和辐照下高可靠性等显著优势,在电力电子和射频微波电子器件领域展示出巨大的潜力。然而,在常规的横向结构电子器件中,电流崩塌和自热效应等是制约着器件发展的重要问题。在此背景下,纵向结构GaN电力电子器件成为了突破障碍的新方向,其具有功率密度高,可靠性高,热分布均匀等优点。而基于异质衬底的准垂直结构电子器件由于衬底成本低,兼具性能
机器间(Machine-to-Machine,M2M)通信是指在没有人为干预的条件下,机器与机器之间通过通信网络自主地进行数据传输。作为第五代(Fifth Generation,5G)移动通信实现万物互联的主要连接方式,它被逐步地应用到智慧交通、智能家居、电子医疗、远程监控等物联网行业,这使得机器类型通信(Machine Type Communication,MTC)设备的连接需求与日俱增。当大量
海杂波特性研究在雷达探测、海面目标检测及微波遥感等领域具有重要意义。本文主要基于海洋环境参数和深度学习模型研究不同海域的海杂波特性,建立了海洋环境参数与海杂波特性之间的关联模型,并分析了不同海域影响海杂波特性的海洋环境参数因子,为不同海域目标探测、不同波段雷达参数选择及性能提升提供数据和理论支持。本文的主要研究内容及成果特色概括如下:1.本文首先基于欧洲中尺度天气预报中心提供的大量海洋环境参数数据
无人机(UAVs)己成为无线网络的重要组成部分,同时也是5G和未来无线物联网的关键推动因素。UAV作为空中基站,在覆盖范围、连接性和频谱方面提高蜂窝网络性能。无人机机载基站可提供高质量的网络连接并扩展无线蜂窝网络的覆盖范围。此外,UAV可以作为蜂窝网络内的飞行移动终端,支持实时视频流以及物品的递送等多种应用。然而,在UAVs无线通信网络体系的设计和部署中仍然存在许多具有挑战性的问题,如能量和干扰管
半监督学习已经成功地被运用于基于动态数据分析的数据挖掘和机器学习等研究领域之中。非平衡类的学习是分类问题中最具挑战的问题之一。不同于平衡数据,用于模型训练的冗余且不相关的特征会影响分类模型的性能。近年来,学者们大多着眼于非平衡数据的二分类和多分类问题。本文的要点如下。1.提出了一种半监督深度C均值聚类算法(DFCM)用于非平衡数据的二分类和多分类问题,可以用于数据边界不清晰和需要额外参数来减少统计
一直以来,奈奎斯特采样定理是传统信号采样的基础,但该定理理论要求当采样速率达到信号带宽的两倍以上时才能进行信号的精确恢复,由此出现了代替奈奎斯特采样定理的最新却最有效的信号采样压缩处理技术—压缩感知理论。该理论是基于信号的稀疏性或可压缩性,同时实现信号的压缩和采样。它已经成功的被应用到科学领域和工程领域的很多方面,成为了近几年来国内外学者的研究热点。该理论主要包括了信号的稀疏表示、采样矩阵的选取和
在无线通信领域中,网络容量、传输效率、抗干扰能力是无线网络传输的重要指标。中继网络是扩大信号传输覆盖范围、提高传输效率、节约网络资源的有效手段。波束成形技术通过对天线阵列的信号进行加权处理,获得分集增益,提升网络的传输性能。并且,因其波束传输的方向性以及空间滤波性,波束成形技术具有很好的抗干扰能力。因此,结合中继网络研究波束成形技术以提升网络容量与抗干扰性能具有非常重要的理论意义和应用价值。两跳多