论文部分内容阅读
随着网络上多媒体数据的爆炸性增长,如何在大规模图像数据中快速准确地找到用户想要的图像已经成为多媒体信息领域中重要的研究课题。基于内容的图像检索方法(Content-basedImageRetrieval,CBIR)因其对图像内容的描述能力,目前被广泛地采用。但基于内容的图像检索方法在计算机表达和人类理解之间存在语义鸿沟问题。
近些年,有很多研究致力于缩小语义鸿沟,尽可能使计算机表达出来的图像内容与人类感知到的图像内容之间的差距变小。深度学习是机器学习中一种对图像特征进行学习的方法,利用深度学习技术得到的图像特征被称为深度特征。自卷积神经网络(ConvolutionalNeuralNetworks,CNN)在2012年被首先提出,以CNN为代表的深度学习技术凭借其强大的深度特征表达能力使得CBIR的语义鸿沟进一步缩小。但卷积神经网络因其自身框架的原因,存在表达图像特征能力有限,输出特征高维,需要大量带标签训练数据等问题。因此,本研究课题从以上三个方面入手,解决基于深度特征的语义图像检索目前存在的问题,提高大规模图像检索的精度和效率。本文的主要工作如下:
(1)针对目前的卷积神经网络对图像特征的表达能力有限的问题,本研究课题首先从卷积神经网络的原理考虑,提出最大值-均值池化算法,结合Maxout非线性激活函数优化卷积神经网络的特征表达,在图像分类数据集上的对比实验验证算法有效性。
(2)针对输出特征高维等问题,本研究课题从神经网络原理和网络框架两方面考虑,提出改进的自适应参数最大值-均值池化算法,在网络的全连接层添加新的隐层用于输出层特征降维及二值化,通过图像检索精度和效率的对比实验验证算法和框架的有效性。
(3)针对卷积神经网络训练过程需要大量带标签数据的问题,本研究课题设计无监督对抗图像检索框架(UnsupervisedAdversarialImageRetrieval,UAIR),根据图像检索自身特点设计对抗训练方法,在无标签训练样本前提下优化深度特征表达,将生成对抗直接用于图像检索过程,通过一系列图像检索对比实验验证该框架的有效性。
本研究课题致力于基于深度特征的语义图像检索的研究,通过一系列方法缩小大规模图像检索中的语义鸿沟。本文从算法原理,网络框架和训练方法三个方面去优化深度特征表达,使深度神经网络的输出特征更适用于CBIR。在将来的工作中,我们考虑将以上方法进一步扩展到跨模态信息检索中。
近些年,有很多研究致力于缩小语义鸿沟,尽可能使计算机表达出来的图像内容与人类感知到的图像内容之间的差距变小。深度学习是机器学习中一种对图像特征进行学习的方法,利用深度学习技术得到的图像特征被称为深度特征。自卷积神经网络(ConvolutionalNeuralNetworks,CNN)在2012年被首先提出,以CNN为代表的深度学习技术凭借其强大的深度特征表达能力使得CBIR的语义鸿沟进一步缩小。但卷积神经网络因其自身框架的原因,存在表达图像特征能力有限,输出特征高维,需要大量带标签训练数据等问题。因此,本研究课题从以上三个方面入手,解决基于深度特征的语义图像检索目前存在的问题,提高大规模图像检索的精度和效率。本文的主要工作如下:
(1)针对目前的卷积神经网络对图像特征的表达能力有限的问题,本研究课题首先从卷积神经网络的原理考虑,提出最大值-均值池化算法,结合Maxout非线性激活函数优化卷积神经网络的特征表达,在图像分类数据集上的对比实验验证算法有效性。
(2)针对输出特征高维等问题,本研究课题从神经网络原理和网络框架两方面考虑,提出改进的自适应参数最大值-均值池化算法,在网络的全连接层添加新的隐层用于输出层特征降维及二值化,通过图像检索精度和效率的对比实验验证算法和框架的有效性。
(3)针对卷积神经网络训练过程需要大量带标签数据的问题,本研究课题设计无监督对抗图像检索框架(UnsupervisedAdversarialImageRetrieval,UAIR),根据图像检索自身特点设计对抗训练方法,在无标签训练样本前提下优化深度特征表达,将生成对抗直接用于图像检索过程,通过一系列图像检索对比实验验证该框架的有效性。
本研究课题致力于基于深度特征的语义图像检索的研究,通过一系列方法缩小大规模图像检索中的语义鸿沟。本文从算法原理,网络框架和训练方法三个方面去优化深度特征表达,使深度神经网络的输出特征更适用于CBIR。在将来的工作中,我们考虑将以上方法进一步扩展到跨模态信息检索中。