论文部分内容阅读
信息技术的发展为教育的改革创新注入了新的活力,为教育现代化发展提供了新途径。学校的信息化教学环境已基本建立,以多媒体与网络为代表的信息技术广泛运用,丰富了教学内容表现形式及教学活动形式。然而,教学模式多局限于“传递——接受”的传统模式,学生的主体地位得不到体现,不利于个性化发展。因此,为了充分体现学生的主体地位,教学过程中掌握学生的学习状态或兴趣是非常必要的。注意力能客观地反映学生的学习状态或兴趣,是实现个性化教学的关键。头部姿态是个体的头部朝向,在很大程度上反映了注意力方向,因此为掌握学生的注意力,本文展开头部姿态估计算法的研究。头部姿态估计是指利用计算机视觉和模式识别技术来估计数字图像中头部的朝向。头部姿态估计具有广泛的应用前景,近些年受到研究者们越来越多的关注并且取得了不错的进展,然而在实际应用中仍然无法获得理想的性能。影响头部姿态估计算法性能的关键因素包括:(1)标签的准确性。标签的真实合理是算法有效性的前提;(2)特征的有效性。增强有效特征、降低干扰因素是提高性能的关键;(3)方法的泛化性。方法的泛化能力是算法能否实用的保障。具体来讲,存在的挑战有:(1)数据集标注困难。自然场景下无法获取精确的头部姿态标签;(2)面部身份信息干扰。同一个体的身份表观相似性高于不同个体同类头部姿态之间的相似性;(3)泛化能力弱。通常在一个数据集上训练好的模型应用到另外一个数据集时性能呈明显下降。针对以上挑战,本文首先提出基于弱学习策略标签分布构造方法,有效降低了构造的标签分布与真实分布之间的差距;然后提出正则化卷积神经网络学习鲁棒性的深度特征,同时发展人脸鉴别辅助的深度多任务学习方法,降低面部身份信息对学习头部姿态特征的影响,显著提升了准确率;最后提出基于标签分布的分类及回归融合的方法,有效缓解头部姿态估计跨数据集性能下降问题,该方法的实用性在实际教学大场景中得到初步验证。本文研究工作主要体现在以下几个方面:(1)为了解决高斯函数产生的标签分布不能合理地描述真实的标签分布问题,本文提出了一个弱学习策略,其采用数据驱动的方式为训练集中的每个头部图像学习一个近似合理的分布,学习的分布随后用作监督信息。当无法获取更多的标记信息时,例如仅知道水平角度,传统的基于标签分布的方法性能明显下降。为此,本文进一步将正则化项以及正相关和负约束引入到损失函数来提高学习模型的泛化性能。(2)为了提升单一背景下头部姿态估计的准确率,本文提出了一个新颖的头部姿态估计框架。其采用一个轻量级并且鲁棒的卷积神经网络架构,由一个主干网络和三个子网组成。该架构以整个图像作为输入、标签分布作为监督信息,通过两种类型的目标函数(KL散度损失和Jeffreys散度损失)来优化。实验结果证明,提出的方法能够很好的学习带有互补特性的深度特征表示,并且能够挖掘更有区分性的类判别区域。(3)为了缓解面部身份信息对头部姿态估计的影响,本文提出了一个联合头部姿态估计和人脸鉴别的深度多任务学习框架,其中头部姿态估计为主要任务,人脸鉴别为辅助任务。考虑到人脸鉴别的区分性特征主要在于人脸区域,而头部姿态应该尽可能地包含整个头部区域,因此分别地将这两种不同的图像区域输入到两种不同的任务。这两种任务在网络前端共享特征表示,然后通过数据分离模块分离两种不同的区域并送入到各自的任务分支,最后采用两种类型损失函数的加权来进行优化。(4)为了实现教室大场景下的头部姿态估计,本文提出了基于标签分布的分类和回归融合的头部姿态估计方法,并且使用大规模的合成数据集来训练提出的模型,在教室场景数据集上进行的跨数据集头部姿态估计实验中表现出优秀的性能。此外,我们提出了一个更合理的注意力几何模型来建模注意力点、个体在世界坐标系中的位置以及估计的头部姿态角度三者之间的关系,并成功地应用到教室场景下的学生注意力识别中。