基于时空特征和深度学习模型的人脸表情识别算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:lifang877
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断完善和人工智能的快速发展,人脸表情识别技术逐渐成为一个研究热点。人脸表情识别是指利用现代计算机技术对特定的人脸表情及变化进行分析,进而确定其心理状态,实现人机之间更加人性化和智能化的交互。实现计算机的人脸表情识别对于推动人工智能技术的应用与发展,增强计算机的智能化,开发新型人机环境,以及推动心理学等学科的发展,都有着重要的现实意义,并最终产生巨大的社会效益和经济效益。而近年来,深度学习算法异军突起,以迅猛的发展速度为各个领域带来了新的机遇,不同于传统手工提取特征的方法,科研人员通过构建深度神经网络可以自动学习出泛化能力强的特征。所以针对人脸表情识别的特殊性,本文将深度学习模型应用于人脸表情识别。本文针对动态图像序列进行人脸表情识别研究。为了同时捕捉人脸图像的静态和动态表情信息,本文构建了一个金字塔CNN模型,并将得到的深度特征与时空LBP-TOP进行组合成为表情序列的最终表示。首先,在人脸表情序列中通过计算人脸关键点的总位移自适应地挑选出表情强度最大的帧。考虑到人脸表情左右两边细微的不对称,同时为了捕捉该帧的全局和局部特征,本文构建了两层金字塔CNN模型,分别作用于表情强度最大帧的整张人脸图像和分块后的局部区域,并将作用后的5个深度特征级联作为最终的静态金字塔CNN的特征表示。对于表情序列,不仅需要对表情图像空间信息进行有效提取,也需要对人脸表情的变化过程进行建模。因此,接下来本文采用LBP-TOP算子,在LBP基础上结合时空域角度考虑,从三个正交平面提取表情图像序列的动态纹理特征,更好地表达人脸表情的实质信息。最后,将静态金字塔CNN特征和动态LBP-TOP特征级联后的组合特征放入“一对一”策略的SVM多分类器中,实现表情分类。此外,同样为了获得表情序列在时域上的关联性,本文引入了LSTM结构,构建了一个端到端的基于卷积神经网络和长短时记忆网络(CNN-LSTM)的深度网络模型。网络利用CNN预训练模型提取视频序列中每一帧人脸表情图像的空间特征,并依次送入长短时记忆网络,获取帧间的动态变化信息,最后将每一个LSTM单元的输出求平均值作为视频序列的表示通过一个分类层输出序列对应的表情标签。为了验证本文算法的有效性,我们分别在CK+和Oulu-CASIA两个标准数据集上进行实验。实验结果表明,本文提出的两个算法均具有较高的人脸表情识别性能。
其他文献
布洛芬是一种常见的非甾体消炎镇痛药物和非处方药,人体摄入后不能完全代谢吸收,残余部分排入污水厂后通常得不到完全降解,最终会排入自然水体中并长期存在。水体中的生物长
在隧道的建设过程中,可能会出现一系列的地质灾害对隧道的施工安全、以及建成后的运营带来很大影响,其中地下水对隧道的影响非常大,还有可能引发其它一系列地质灾害发生,如涌突水、突泥、地面沉降、塌陷等等,其中尤以涌突水最为普遍和严重。所以,为了减少这些灾害的发生,有必要掌握隧址研究区的地层岩性、地质构造、岩溶发育特征、含水岩组富水特征、以及水文地质特征,进而对隧道在开挖过程中可能发生的涌水量进行分析计算,