论文部分内容阅读
随着多媒体和互联网相关技术的发展,图像语义理解在人们的日常生活中扮演了越来越重要的角色。基于计算机视觉的图像检测与分类在实际生活中的应用场景越来越广泛。图像中文字信息的智能提取与分析,特定场景下人脸识别等视觉检测与分类问题显得尤为重要。尽管视觉检测方法在过去有着深厚的研究基础,由于各种图像背景的干扰以及图像本身的复杂性,高效可靠的视觉检测与分类技术仍然充满了挑战。最近几年,越来越多的研究者认识到深度学习模型在处理图像语义理解方面的优势,并将深度学习的研究作为视觉检测与分类任务的突破口之一。本文主要从深度学习的结构出发,研究了深度学习的数据层、损失函数层和模型的迁移技术。并且我们还在实际的视觉检测与分类任务上加以应用和验证,论文主要的工作和贡献包括:首先,我们针对深度学习处理尺度不一的图像需要缩放、裁剪的问题,引入空间金字塔汇合的池化操作,使得卷积网络可以适应不同大小的输入图片。这样就能够利用图像的全局信息,避免不必要的可能会带来信息损失的裁剪、缩放等操作。我们将此模型应用到图像中的文本检测领域,取得了令人满意的结果。其次,在深度学习模型的损失函数方面,我们将度量学习与深度学习相结合,对深度学习的损失函数进行改进。使用Triplet loss替代原始的Softmax函数,通过构建三元组来将距离度量引入到深度学习模型。我们将学习到的特征用欧式距离来表达,最小化同类之间的样本距离,最大化不同类样本间的距离。使用Triplet loss能够使得不同类别之间的差异度更大,二者之间的界限更明显,尤其是对于二分类的视觉检测任务效果提升明显。最后,对于训练样本较少,训练时间、训练数据均存在约束时,我们提出了使用深度层次网络结合迁移学习进行微调。我们采用公开的预训练模型,将模型的权值作为训练新模型时的初始权值,并且在训练新模型时,根据原模型与新模型之间的相似度关系决定微调的网络层次。最后我们给出了实用性的训练时学习率的改变策略,在人脸检测与识别的任务上,效果提升显著。