基于深度学习的场景识别研究

来源 :南京信息工程大学 | 被引量 : 1次 | 上传用户:chenghongminghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景识别是计算机视觉领域重要的研究方向,场景图片的类间相似性和类内差异性使得场景识别极具挑战性。深度学习技术的迅速发展给场景识别算法研究提供了新的研究思路。本文旨在通过对场景识别的传统方法与深度学习技术的发展现状的研究,提出基于深度学习在场景识别技术中应用的解决方案。本文首先融合传统识别方法与深度网络提出了混合深度场景识别网络;此外,基于场景识别过程中的类别显著性机制,提出了改进的多任务场景识别框架。本文首先结合传统场景识别方法和深度学习方法的优缺点,提出了混合深度场景识别方法,该模型首先在混合识别的Fisher编码层和判别层之前用深度直连自编码器作为图像局部特征提取层,完善了整个混合深度识别框架。采用直连非监督深度网络输出直接重构输入,能够提取更有判别性的中尺度局部特征。此外,通过改变场景图片对应局部图像块的构成实现场景数据扩充。引入图片所在类中出现概率低的图像块作为类内干扰加入原图像块中,减少类内差异误判。为了减少类间相似性影响,通过信息熵度量引入相似类中特有的关键图像块,替换原先图片中类别相关的图像块,同时改变对应标签,突出关键图像块对相似类别判断的决定性。实验表明该算法具有鲁棒性,可以有效权衡识别效率与准确率。针对训练数据中大量的有标签场景图片,可以反演出场景图片类别相关的显著性区域,提出了一种基于类别显著性的多任务场景识别框架。该算法使用选择搜索与粗分类器去生成类别相关的显著性场景图像作为重构目标,选择搜索用来生成场景图片的局部区域,对应局部图像输入到粗分类器得到整个图片的类别相关置信值,进而生成显著性场景图片。结合其他辅助网络的多任务的深度学习框架进行场景识别,可以有效的避免过拟合,基于显著性图像重构的网络可以对场景图片的判别起着较好的辅助作用,减小场景图像中非类别相关部分对判别造成的干扰。实验表明该方法可以抑制类间和类内干扰,提高场景识别的准确性。
其他文献
LTE是目前主流无线通信系统之一,其在物理层方面采用了多输入多输出技术(MIMO)和正交频分复用技术(OFDM)。在LTE系统中广泛采用了基于FDMA的调制技术和多址接入技术OFDMA/SC-FDMA,
地方文献在图书馆收集中的重要地位、馆藏地方文献的意义及其特征.本文根据巴州图书馆的特色,有重点的收集整理地方民族文献,使其发挥维稳促团结的作用.
未成年人作为建设学习型社会的中坚力量,他们的阅读水平直接关系着祖国与民族的未来.本文对未成年人阅读的现状及存在的问题进行分析,并相对开展未成年人的服务对策,以更好地
无线传感器网络一般部署于恶劣环境或无人区域,同时由于其网络中无线信道的开放性,使得网络遭受被动窃听攻击较为容易,因而其数据安全性引起了人们越来越多的关注。如何保证重要
随着电子和计算机技术以及图像采集技术的快速发展,图像处理技术的应用得到了极大的重视。图像分割是图像处理中的一种关键技术,其目的就是把图像分成具有不同特征的区域并提
当今,随着无线通信网络技术的快速发展,频谱资源的使用变得越来越紧缺,甚至出现了“伪拥挤”状态。这一方面是由于无线频谱资源的稀缺,另一方面也是由于现有的固定频谱分配方式导
视频压缩编码能够去除视频信息中的冗余信息,解决了视频传输中信道带宽不足的难点,并且加快了视频实时传输的速度。运动估计是视频压缩编码中的重要组成部分,其去除了视频帧
中华文化是我国民族的突出优势,也是我国经济软实力的彰显基础.对于社会经济的发展而言,传统文化是发展社会主义先进文化的基础,是实现中华民族伟大复兴的重要依据和先决条件
随着计算机网络的飞速发展,数字媒体产品给工作和生活带来方便快捷的同时,也带来了版权安全等一系列的问题。数字水印技术作为一种有效的数字信息版权保护方法,受到了广泛的关注
无线网络技术和智能终端技术的发展促进了移动互联网时代推进的进程。在无线网络的环境下开展实时多媒体业务已经成为业界的热点。传统有线Internet条件下开展实时多媒体业务