语音图像多模态信息融合的情感识别方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:rentianyou123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感识别作为人机交互(Human-Computer Interaction,HCI)系统的核心组成单元,在智能驾驶系统、远程教学系统、智能家居系统、健康检测系统、旅行推荐系统以及智能机器人系统中具有重要的应用价值。人类一般通过语音和表情图像表达情感,因此,开展语音图像多模态信息融合的情感识别方法研究,提高多模态情感识别的识别率,具有重要的理论意义和实用价值。本文以情感识别模型作为研究对象,分析语音和图像情感信息与人类情感状态之间的联系,针对语音图像多模态信息融合过程中的关键帧提取方法和特征融合方法开展深入的研究,旨在充分融合语音和图像模态的情感特征,提高多模态情感识别的识别率。随着多媒体信息时代的到来,面对海量的情感视频,如何从情感视频数据集中提取语音和图像关键帧对于提高多模态情感识别的性能尤为重要。但是,传统的语音图像关键帧提取方法存在关键帧冗余、丢失重要的情感信息等问题。因此,本文提出一种基于多模态情感识别的语音图像关键帧提取方法。该方法首先利用语音活动检测(Voice Activation Detection,VAD)算法消除语音信息的噪声来提取初步的语音关键帧;然后,利用信息熵的思想表征人类情感产生是一个连续过程,并利用感知哈希算法有效的提取初步的图像关键帧;最后,在语音图像关键帧对齐技术中利用语音和图像模态之间的互补性保存了重要的情感信息并提取最终的语音和图像关键帧。在RML、eNTERFACE05和BAUM-1s语音图像公共情感数据集上,通过语音梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)提取实验、表情图像提取实验、表情图像信息熵实验和语音图像关键帧提取实验验证了本文提出的语音图像关键帧提取方法,它不仅有效的减少语音和图像关键帧的冗余,而且也有效的保存重要的情感信息。针对当前特征层融合未充分考虑语音和图像模态之间的相关性,导致多模态情感识别的识别率较低的问题,本文提出一种融合语音图像相关特征的多模态情感识别方法。该方法首先利用本文提出的语音图像关键帧提取方法分别提取语音和图像关键帧;然后,语音关键帧的MFCC特征和图像关键帧的面部表情序列被分别输入到二维卷积神经网络和三维卷积神经网络中提取高阶情感特征;同时,在特征融合阶段,通过在典型相关分析(Canonical Correlation Analysis,CCA)算法的基础上引入类别信息提出一种改进的CCA特征融合方法,并基于语音和图像模态之间的相关性构造加权矩阵K和新的类间散度矩阵Sb来区分相似的情感类别;最后,利用支持向量机(Support Vector Machines,SVM)实现语音图像相关特征的情感分类。在RML、eNTERFACE05和BAUM-1s语音图像公共情感数据集上,通过消融实验、语音图像关键帧提取实验、语音图像相关特征融合实验、对比实验验证了本文提出的语音图像关键帧提取方法和语音图像相关特征融合方法有效的提高多模态情感识别的识别率。
其他文献
随着互联网技术在生活中的广泛应用,学术论文载体也在不断增加,学者每天面对的论文数量出现了爆发式增长,有限的时间导致研究者不能对每篇论文进行研读,因此如何利用主题发现技术对论文进行准确主题提取是亟待解决的问题。当前话题发现领域常用算法为LDA模型,但是LDA模型存在没有利用语义信息、主题表征词含义不清和主题提取数目偏大等诸多问题,但是其他学术主题发现方法比如社交网络方法复杂耗时较多,因此本文结合学术
光电催化分解水是将太阳能转换成绿色无污染的氢能的过程,包括了光阳极的水氧化和光阴极的水还原的两个半反应。水氧化反应过程涉及到连续的四个电荷转移,需要比较高的反应活化能,因此研究高性能的半导体光阳极材料对于提高水分解效率是非常有意义。目前光阳极半导体中普遍存在载流子迁移率较低导致电子空穴对的复合问题,这将降低水分解的效率。近年来,纳米尺度铁电材料的出现为解决这一问题提供了新的思路。已有研究表明,铁电
电解加工(Electrochemical machining,ECM)是根据不同金属间电子转移,使金属元素化合价改变,从而使阳极表面材料发生电化学反应,以达到去除表面材料的一种工艺方法。加工时,阴阳极之间存在加工间隙,阳极是通过离子溶解的形式而被蚀除,因此不存在应力和变形、以及无冷作硬化层等优点。本文应用COMSOL Multiphysics软件,对冷却孔电解加工间隙内流场、电场及稀物质传递场等进
过渡金属催化不饱和分子活化是一种高效并且原子经济的合成方法,由于其在合成天然产物、药物、具有生物活性骨架的化合物等领域具有非常重要的作用,一直以来受到有机化学家们的广泛研究。铑催化剂因其具有反应活性高、底物适用范围广、选择性好以及官能团兼容性好等优点常被用于不饱和分子的活化。不饱和分子种类繁多,并且其高效高选择性的官能化反应仍是有机合成化学中的研究重点。通常要实现不饱和分子的活化或者官能化需要进行
随着对新能源电动汽车、小家电和便携式电子设备的需求增大,社会对快速转换和储存电化学能量的可充电电池的要求也越来越高。锂硫电池是以锂金属为负极,硫为正极的新型二次电池,在未来有望替代已触及其能量密度天花板的锂离子电池成为下一代能源存储系统。与基于锂离子嵌入/脱嵌原理的锂离子电池不同,锂硫电池在充放电过程中会经历多个反应中间体,其中长链多硫化锂(Lithium Polysulfides,Li PSs,
超材料,具有奇异材料特性的人造复合结构,在进入21世纪以来,已经成为涉及物理学,材料科学,工程学和化学的科学新领域。基于叠层金属-介质层-金属(Metal-Insulator-Metal)的MIM超材料吸收器作为一种典型的超材料表现形式,由于其具有体积小、结构灵活、制备简单、灵敏度高和无标记等优点,不仅被应用于光源及探测器的研究,而且在气体、化学、生物物质的传感检测中也展示出了极高的应用价值。本论
近年来,随着各国二氧化碳大量排放,温室气体猛增,对生态系统形成了一定的威胁,因此各国越来越重视环境保护。在2021年两会中,“碳中和”和“碳达峰”首次被写入政府工作报告,证明我国下定决心要解决碳排放中存在问题。传统的硅酸盐水泥混凝土行业具有高排放和高能耗的特点,在节能减排的进程中面临了巨大的挑战,因此探索研究低碳的新型胶凝材料成为了众多解决方式之一。基于此,本文主要探究以碳酸钙与铝酸盐矿物为主要原
葡萄糖是维持哺乳动物生命活动的基本营养物质之一,持续浓度高出正常水平的葡萄糖将会导致糖尿病。这是一种常见的慢性疾病,严重危害了人类健康,因此对于人体内葡萄糖浓度的定量检测具有十分重要的意义。而目前大多数市售葡萄糖检测仪是基于酶的传感器,但酶传感器具有繁琐的酶固定过程、价格昂贵、保质期短等缺点,所以越来越多的非酶葡萄糖传感器被开发应用。本论文利用过渡金属的高催化性能结合碳材料的导电性和高比表面积,制
随着信息时代的到来,工业技术迅速发展,电子产品的种类和数量急速增加,相关电子信息设备产生的电磁波充斥在人们日常生活的每个角落。空间中可监测到的电磁能量也在以每年7%以上的速率迅速增长。过量的电磁辐射会给人们正常的生产生活带来不利影响。电磁屏蔽则是解决过量的电磁辐射的有效手段,发展和研究出新的高性能电磁屏蔽材料已成为各国的研究重点。镁合金是现今继钢铁和铝合金之后应用广泛的第三大金属材料,具有较轻的重
声音事件检测旨在识别输入音频信号中所包含的目标声音事件并确定事件出现的起止时间。声音事件检测在人们对真实环境的感知和交互方面发挥着重要作用,在智能监控,自动驾驶和医疗保健等领域有着巨大的应用价值。随着深度学习技术的发展,基于深度神经网络的声音事件检测取得了显著的效果提升。数据驱动的深度神经网络依赖大量的训练数据,而现有声音事件检测数据集的规模较小,这制约了深度神经网络在声音事件检测中的发展。声音事