论文部分内容阅读
情感识别是情感计算领域中的一个重要分支,是当前信号处理、模式识别、人工智能、人机交互等领域的研究热点。由于情感识别是一个多学科交叉的复杂研究课题,尚存在诸多问题有待解决,尤其在特征提取、特征降维、识别方法以及多模态情感信息融合等方面还有待更深入地研究。情感语音和人脸表情是人类表达情感的最主要的两种方式。本论文正是针对基于情感语音和人脸表情的情感识别方面的关键技术做了探索,提出了若干改进算法应用于情感识别。本论文的主要内容为:1.综述了语音情感识别和人脸表情识别两个方面的研究历史及现状,概述了其中的重点和难点,如情感数据库、情感特征提取与降维、以及情感的分类算法等。2.研究适用于语音情感特征数据的非线性降维算法,给出一种改进的监督局部线性嵌入(Improved-SLLE)算法。为了克服SLLE算法的不足,提出一种能够提高SLLE算法所产生的低维嵌入数据的判别力,并具备最优泛化能力的改进SLLE算法。该算法对提取的语音韵律特征和音质特征作非线性降维处理,从而在低维的嵌入特征空间里实现语音情感识别性能的改善。3.研究适用于语音情感特征数据的基于核思想的非线性降维算法,提出一种核判别局部线性嵌入(KDLLE)算法。为了融合核方法和局部线性嵌入(LLE)算法,通过设计一个核判别距离,并在再生核Hilbcrt空间(RKHS)上实现重构误差的最小化,从而提出一种具有判别性质的核判别局部线性嵌入算法。该算法用于语音情感特征数据的非线性降维,不仅取得了比LLE更好的低维可视化效果,而且也表现出优越的语音情感识别性能。4.研究语音情感的连续性动态变化的跟踪技术,提出一种基于“激发维-效价维-控制维(AVD)”三维连续空间模型的语音情感估计方法。根据情感维度表示理论,情感可定义为三维连续空间模型(AVD)上的坐标点。每个AVD坐标点就可以唯一地标识某一种离散的情感类型。通过采用回归方法对情感语音的AVD坐标值的连续性变化进行预测估计,从而将针对离散情感的语音情感识别问题转化为针对连续性情感变化的语音情感估计问题,以便达到对语音情感表达的连续性动态变化进行追踪的目的。5.研究基于压缩感知理论的鲁棒性人脸表情识别技术,给出一种基于稀疏表示的人脸表情识别新方法。首先对要识别的受到腐蚀或遮挡的测试样本表情图像寻求其稀疏表示,然后采用压缩感知理论求解其最稀疏的解,最后根据所求取的最稀疏解信息进行表情分类。在提取原始像素、局部二元模式(LBP)与Gabor小波三种人脸表情特征之后,该方法可用于实现鲁棒性的人脸表情识别。实验结果表明,该方法不仅具有优越的人脸表情分类性能,而且表现出良好的鲁棒性。6.研究融合语音和人脸的多模态情感识别机制。首先分别提取能够反映情感语音和人脸表情的特征参数,然后采用两种多模态信息融合策略:特征层融合和决策层融合,用于实现多模态情感识别。实验结果表明,融合语音和人脸的多模态情感识别性能都要比单模态的性能高。此外,采用product规则的决策层融合所取得的多模态情感识别性能最好。