论文部分内容阅读
随着计算机科学的不断发展,以及对个性化人机交互需求的不断增强,情感计算在人机交互中的重要性日益显著,基于情感理解与表达的人机交互研究受到了各领域的广泛关注。情感识别及理解作为情感计算的基础,是使计算机拥有情感感知能力的重要研究内容。而面部表情和肢体行为作为人类表达情感的两种主要方式,也就成为了情感识别研究的重要手段。因此,本文基于对面部表情及肢体行为的分析,对情感识别理解中的特征表示、分类方法及多模态融合等问题进行了深入的研究,并完成了如下几个方面的内容及创新工作:1.对基于面部表情的情感识别进行了深入的研究,提出了基于改进决策森林的表情识别方法。通过对人的面部表情进行分析,获得了对表情辨别中变化显著的多个面部区域,并基于该分析结果提出了一个基于决策森林的表情分类模型——隐马尔可夫决策森林模型(Hidden Markov Model Decision Forest,HMMDF)。该模型以决策树作为其基本拓扑结构。模型中每个节点被定义为一个具有可分辨性的强分类器,并利用多个隐马尔可夫链的组合进行构造,从而实现对表情的视频数据的分析识别。其中,每个隐马尔可夫链描述了唯一的面部区域,且针对不同的面部区域,其在模型中的作用价值通过权重的形式加以表示。由此,面部区域在表情识别中所表现出的差异性将在模型中得到充分的发挥,从而实现了对多个面部区域特征的融合。实验验证了面部区域对不同表情分辨能力的差异性特点,并通过实验对其进行了量化。实验结果表明,所提出的表情识别模型HMMDF在动态表情识别中能够取得较好的识别效果。2.对基于肢体行为的情感识别进行了研究,分析了交互行为中的情感交流,并针对交互行为特征描述问题,提出了与情感相关的交互行为的特征表示方法。基于交互行为的肢体运动特点,提出了两层特征表示模型。该模型不仅描述了行为过程中的运动特征,还融合了交互行为过程中的上下文信息。在该特征表示模型中,低层表示采用了局部时空轨迹的编码方法,并提出了层次时空轨迹编码模型对特征进行学习,从而实现了对运动特征的表示。此外,基于对交互行为中的时空关系特点的分析,还提出了交互行为的上下文信息的描述方法。该方法从行为序列中提取了蕴含交互行为中时空上下文信息的局部交互姿态轮廓,并以此作为交互上下文特征引入到低层表示中。模型的高层表示则基于对局部特征的编码,提出了基于时空序列特性的聚类方法,从行为的整体性角度进一步描述行为特征。3.基于以上研究,对人脸表情及肢体动作所表达情感的理解及意图的识别进行了深入探讨,提出了基于面部表情和肢体行为的多模态融合模型,解决了相似交互行为在不同环境中的情感理解及意图识别问题。该模型基于多层隐马尔可夫链实现,将交互者的表情分别作为彼此情感意图表达的上下文信息,并融合了交互中双方的行为姿态的变化。模型中不仅通过隐马尔可夫链定义了每种模态的行为状态转换关系,还描述了不同模态之间状态的相互联系,因此能够更有效地分辨相似的交互行为,进而实现了对情感的理解及意图的识别。4.提出并构建了基于多模态情感表达的行为数据集。为了对以上基于面部表情与肢体行为融合的情感意图识别方法进行验证,提出并建立了多模态的情感数据集。该数据集包含了来自32部电影的283个视频片段,共表达了4类情感意图,分别为庆祝、问候、安慰和感谢。此外,还对该数据集中所包含的面部表情类型、视频片段中行为的相关特性等进行了标注。综上所述,本文分别基于多种模态对情感识别中的特征表示、分类算法进行了深入的研究,并基于以上工作采用了多模态融合的方法对交互行为中复杂情感加以理解,进而实现了更深层的情感意图的识别。以上研究使计算机在具有情感识别能力的基础上,进一步具有理解情感、识别情感意图的能力,从而在人机交互中表现得更加灵活、自然、和谐。