论文部分内容阅读
随着人类社会的发展,图像与视频在我们日常生活中成为越来越重要的信息载体,图像与视频的自动理解成为一个重要的技术方向。通过摄像头获取得到的信息自动分析画面中人物的情感状态在家庭陪护、在线教育、智能营销、疲劳驾驶侦测等多个现实应用具有实用价值。进行表情分析主要包括对图像中的人脸进行检测、根据检测到的人脸图像进行单帧的静态表情分析以及融合多帧特征进行动态表情分析。(1)在人脸检测环节,本文提出了一种基于显著性特征约束的人脸检测算法,有效地增强了网络的特征表达能力,使得网络具有注意力特性,同时该方法在预测阶段不带来额外的时间损耗。算法在人脸检测数据集Widerface上进行实验,取得改进效果。(2)在对常见的六种表情分类任务上,本文提出了显著性特征约束下的静态表情分类算法。该方法利用反卷积网络提取显著性特征,使用面部表情编码系统构建显著性特征的监督信号,在多任务的框架下联合显著性特征产生的损失函数与分类的损失函数对网络进行优化。算法在CK+表情分类数据集上进行实验,取得改进效果。(3)进一步的,我们将上述提出的显著性特征约束算法推广到更一般的表情任务中。本文提出了首先进行度量学习得到预训练模型,而后针对任务在预训练模型上进行微调的方法。在度量学习的过程中我们提出了利用三元组自动挖掘显著性特征监督信号,不依赖于面部表情编码系统的方法。算法在UNBC McMaster Shoulder Pain面部疼痛估计数据集上进行了试验,取得改进效果。(4)最后在基于视频的动态表情识别任务中,本文提出了一种融合显著性特征的卷积参数局部共享的时空图卷积算法。该算法将视频序列中人脸特征点构建的时空图结构作为输入,图结构中融合了特征点的位置坐标与特征点在显著性特征图中的特征向量,并使用局部连接的图卷积对时空图卷积网络进行优化,提高了模型的特征提取能力。算法在Oulu-CASIA视频表情分类数据集上进行了相关对比实验,取得了改进效果。