论文部分内容阅读
随着计算机技术的不断完善和人工智能的快速发展,人脸表情识别技术逐渐成为一个研究热点。人脸表情识别是指利用现代计算机技术对特定的人脸表情及变化进行分析,进而确定其心理状态,实现人机之间更加人性化和智能化的交互。实现计算机的人脸表情识别对于推动人工智能技术的应用与发展,增强计算机的智能化,开发新型人机环境,以及推动心理学等学科的发展,都有着重要的现实意义,并最终产生巨大的社会效益和经济效益。而近年来,深度学习算法异军突起,以迅猛的发展速度为各个领域带来了新的机遇,不同于传统手工提取特征的方法,科研人员通过构建深度神经网络可以自动学习出泛化能力强的特征。所以针对人脸表情识别的特殊性,本文将深度学习模型应用于人脸表情识别。本文针对动态图像序列进行人脸表情识别研究。为了同时捕捉人脸图像的静态和动态表情信息,本文构建了一个金字塔CNN模型,并将得到的深度特征与时空LBP-TOP进行组合成为表情序列的最终表示。首先,在人脸表情序列中通过计算人脸关键点的总位移自适应地挑选出表情强度最大的帧。考虑到人脸表情左右两边细微的不对称,同时为了捕捉该帧的全局和局部特征,本文构建了两层金字塔CNN模型,分别作用于表情强度最大帧的整张人脸图像和分块后的局部区域,并将作用后的5个深度特征级联作为最终的静态金字塔CNN的特征表示。对于表情序列,不仅需要对表情图像空间信息进行有效提取,也需要对人脸表情的变化过程进行建模。因此,接下来本文采用LBP-TOP算子,在LBP基础上结合时空域角度考虑,从三个正交平面提取表情图像序列的动态纹理特征,更好地表达人脸表情的实质信息。最后,将静态金字塔CNN特征和动态LBP-TOP特征级联后的组合特征放入“一对一”策略的SVM多分类器中,实现表情分类。此外,同样为了获得表情序列在时域上的关联性,本文引入了LSTM结构,构建了一个端到端的基于卷积神经网络和长短时记忆网络(CNN-LSTM)的深度网络模型。网络利用CNN预训练模型提取视频序列中每一帧人脸表情图像的空间特征,并依次送入长短时记忆网络,获取帧间的动态变化信息,最后将每一个LSTM单元的输出求平均值作为视频序列的表示通过一个分类层输出序列对应的表情标签。为了验证本文算法的有效性,我们分别在CK+和Oulu-CASIA两个标准数据集上进行实验。实验结果表明,本文提出的两个算法均具有较高的人脸表情识别性能。