论文部分内容阅读
比较不同样本数据之间的差异是许多应用和研究工作的基础。本文对基于卷积神经网络模型和深度感知图像相似性计算进行了研究:首先针对传统欧式距离度量不准确、效果差的问题,提出基于卷积网络的深度感知度量方法;其次针对传统方法和网络提取特征单一、缺乏语义信息的问题,提出结合微调VGG的特征融合模型;最后,针对感知度量和特征融合模型计算量大、参数多的问题,提出Atrous-MobileNet模型,并且分别应用到图像生成、图像检索以及图像识别任务进行验证。本文的创新点主要有以下三个方面:(1)提出了一种基于GAN和深度感知度量的图像潜在特征学习方法。首先,利用VGG网络提取出的特征图作为训练损失,使得网络提取的特征在语义上更加相似。其次,利用最大均值差异度量,将图像映射到再生希尔伯特空间以度量图像差异。通过比较分析不同条件的实验结果,证明本文提出的模型具有提高潜在特征学习和特征相似度量性能,此外,还探讨了在训练数据集上像素损失和深度感知度量对图像生成的影响。(2)提出了基于多特征融合和模型微调的图像检索方法。针对传统图像特征提取方法所提取特征单一、语义信息薄弱的问题,本文首先通过固定VGG网络模型浅层特征(前三层),并加载预训练模型微调网络提取浅层特征;然后,添加多级特征金字塔结构的特征融合思想,实现多通道多尺度卷积特征融合以底层细节与深层语义特征融合。实验结果表明,与之前的模型相比,利用本文提出的方法在图像检索任务上性能更出色、准确率更高。此外,本文在检索过程中结合使用PCA与哈希映射方法,进一步提高图像检索任务的性能。(3)提出一种基于Atrous-MobileNet和人脸关键点的人脸眼镜检测与识别算法。首先,针对感知度量和特征融合在识别任务中计算量大、参数多的问题,提出Atrous-MobileNet模型用于眼镜的分类识别;其次,为了处理图像的尺度以及旋转问题,对图像进行区域归一化,根据人脸眼睛位置检测眼镜区域。通过大量实验表明,本文提出的眼镜识别模型在眼镜三分类(有、无、墨镜)以及眼镜七分类任务中取得较好的结果,在鲁棒性以及识别精度上都有提升,并且模型计算量和参数都有所降低。