论文部分内容阅读
人脸检测是计算机视觉领域被广泛研究的课题之一。近年来,深度学习在计算机视觉、语音识别、自然语言处理、多媒体等诸多领域都取得了巨大的成功,卷积神经网络作为一种深度模型,被广泛地用于解决计算机视觉和模式识别领域中较为复杂的人脸识别、目标检测、图像分类等问题。目前有众多基于卷积神经网络和深度卷积神经网络的人脸检测方法提出,但由于卷积神经网络,尤其是深度卷积神经网络,其网络结构通常较为复杂而且需要大量的数据样本进行训练,在计算资源有限的条件下难以进行。针对上述问题,本文采用了一种级联的卷积神经网络用于人脸检测,能够使用相对少量的训练样本在普通计算机上完成网络的训练,并达到了相对较好的检测效果,能够完成人脸的快速检测。本文的主要工作包括以下几个方面: 1)对Li等人在2015CVPR提出的CascadeCNN进行网络结构的简化和优化,设计了一个三级级联的卷积神经网络用于人脸检测。本文所设计的级联网络保留了CascadeCNN中3个用于区分人脸和非人脸的二分类网络,去除了需要大量样本训练的3个用于检测框校正的多分类网络。参照AlexNet对第三级网络结构进行调整,并将归一化层的归一化区域设置为5×5。第二、三级网络均使用了多分辨的网络结构,其中第二级网络的全连接层与第一级网络的全连接层相连接,第三级网络的全连接层与前两级网络的全连接层相连接,实验表明与单分辨率网络结构相比,多分辨率的网络结果能够在相同召回率下产生更少的误检框。 2)针对训练样本设置多组不同的训练参数对网络调优,完成了级联网络的训练。与目前常见的基于深度卷积神经网络的人脸检测方法使用百万、千万级别的训练样本相比,级联网络仅使用了约20万的训练样本。对每一级网络设置不同的学习速率、批大小、迭代步数等参数进行训练,选择性能最佳的网络。实验表明,由于级联网络的每一级网络结构相对简单,训练样本数量相对较少,仅使用CPU便能完成网络的训练。 3)使用公开人脸测试集FDDB、AFW对级联网络的检测性能进行评估,并详细分析了评估结果。级联网络在FDDB上的召回率为77.43%,在AFW上的平均准确率为76.02%。结果表明,级联网络达到了相对较好的检测效果,但与目前最优秀的人脸检测方法在检测性能上还有一定的差距。针对评估结果进行实验分析,发现级联网络能对大部分自然条件下的人脸完成精确的检测,但对于模糊程度较高、遮挡较为严重的人脸的检测还存在不足。此外,级联网络实现了快速的人脸检测,在未进行代码优化的情况下,使用CPU检测一张640×480×3的图像平均耗时为511ms。 4)为了进一步加速网络的训练,将LBP局部特征与级联网络进行结合。LBP特征描述了人脸的局部纹理信息,实验表明,与原始图像作为每一级网络的输入相比,LBP特征作为网络输入其内存占用更小,对应网络包含的参数个数更少,网络的训练更为快速。在检测性能上,通过对比实验发现,LBP作为一种局部特征容易造成全局信息和上下文信息的丢失,对于复杂条件下的人脸检测,使用LBP特征训练的级联网络其准确率要略低于原始图像训练的级联网络。