基于视觉和信道状态信息的双模态情感识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jieys75001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着经济、科技水平的不断提高,人们在日常生活中对机器智能化的需求也日益增加。在如今的人工智能浪潮中,机器是否具有情感,是决定机器智能化和人性化程度的关键因素。为此,近年来很多人工智能领域的专家都展开了对情感计算的相关研究。而情感识别正是情感计算领域中最为关键的一项技术。目前关于情感识别的研究通常都只关注于单一模态,而人类的情感表达方式是多模态的,因此,仅基于单模态的情感识别方法可能无法捕捉到个体完整的深层情感。为此,本文在单模态情感识别的基础上,设计了基于姿态和面部表情这两种紧密耦合且富含情感的模态的双模态情感识别系统进行情感识别研究。本文主要工作如下:(1)建立了视觉-信道状态信息双模态情感数据集(Vision-CSI emotion dataset,VCED)。与依赖于专业的视觉设备或者穿戴式传感器的主流姿态捕捉方法不同,本文创新性地使用商用Wi-Fi设备来捕捉人体姿态数据,从Wi-Fi物理层的信道状态信息中分析姿态情感信息。同时使用普通摄像设备采集面部表情数据,从而实现了一种低成本、非接触式、非侵入式、不干扰情感表达的情感数据采集方法,并构建了一个新颖的视觉-信道状态信息情感数据库。其数据来源于10名志愿者,共计1750个有效情感样本。(2)提出了一种基于Wi-Fi信道状态信息与视觉数据的决策层融合的情感识别方法。并在VCED上对该方法进行了验证。实验结果表明了融合方法的有效性,整体识别准确率为83.24%,而基于姿态和面部表情的单模态识别方法的整体识别精度分别为66.48%和66.67%。(3)提出了一种基于多源学习的双模态情感识别方法,充分利用双模态的时空特征和相关性来进行细粒度的情感识别研究。实验结果表明多源学习的方法在降低计算复杂度的同时,也取得了较好的识别效果,其整体识别准确率达到81.91%。
其他文献
大量的人类知识是以非结构化自然语言文本的形式传递的,因此使机器能够阅读和理解文本具有重要的意义。近年来,随着许多该领域数据集的涌现以及深度学习的进步,机器阅读理解在自然语言处理领域受到了广泛的关注。本文专注于研究基于语境化词嵌入与注意力方法的机器阅读理解模型,探索如何解决许多基线模型存在的准确度不足以及训练和推理速度缓慢的问题,主要研究成果如下:(1)部分经典基线模型无法有效结合上下文信息进行进一
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于
异常检测作为计算机视觉中的一个重要分支,广泛地应用于公共安全、欺骗检测、视频监控等领域中。“异常”数据根据实际情况的变化而有所不同,本文中的异常主要是指预期以外的事件,通常伴随图像模糊、颜色失真、光流突变等。受制于异常数据量较少且分布广泛、标记数据的耗时等问题,结合一分类思想的生成对抗网络模型已成为主流,本文首先介绍当前较为流行的基于重构的异常检测模型,训练时只使用正常数据进行训练,学习到正常数据
技术对于解决视频数据量不断增长所带来的浏览耗时的问题有着重要的意义。视频摘要即对视频的概括,按照生成的摘要形式可以分为静态视频摘要和动态视频摘要。在实际工程应用中,静态视频摘要技术更为常用,因此本文主要研究静态视频摘要算法,旨在通过一定的技术手段去除视频中的冗余信息,并选取视频中最能代表视频内容的关键帧生成简短的摘要。本文分析了现有的视频摘要算法所存在的一些不足之处,然后提出了两种全新的基于多特征
随着智能信息化时代的到来,诸如图片,视频,文本以及音频等不同模态数据在互联网上与日俱增,这些多模态数据以不同的形式描述着生活中复杂纷繁的场景,并为彼此提供了有用的互补信息。不同模态的数据在其原始形态上呈现出明显的异质性,难以直接将它们从语义层面建立关联。因此,需要将不同模态数据映射到共有子空间并减小它们之间的差异性。跨模态表示学习旨在减小不同模态数据在特征层面的差距,建立起模态间的语义联系并扩大模
目标检测是计算机视觉中的重要分支,由于不同场景之间的特征分布差异(如背景、光照等),在公共数据集上训练的目标检测框架在现实场景中使用时往往会出现性能下降的问题。解决该问题的方法是采用域自适应技术使在源域训练的模型在目标域中也可以很好的使用,但是传统的自适应方法通过对齐不同域之间的边缘分布以减少特征分布差异,但是可能会导致负迁移的问题。此外,仅仅考虑了单一目标域的自适应场景,限制了模型的适用范围。文
数字化时代的到来引领了三维模型的发展,人们对三维模型的研究不断深入,三维模型的应用也越发广泛。其中,以线形方式表示的三维模型抽象地描述了物体的形状或结构特征,在计算机中不仅存储方便,而且易于交互。在此背景下,本文围绕三维模型的线形表达方式,以原子模型和线框模型为研究对象,调研分析了原子模型在建模和渲染、线框模型提取方面的相关工作,对于原子模型的建模和渲染、线框模型的提取过程中存在的问题进行了研究,
在如今信息技术的快速发展中,物联网技术被不断地普及,人机交互是当前领域的一个热门方向。与此同时,人们的工作生活中,久坐行为已经成为一个普遍存在的现象,但是人们对于久坐行为对身体带来的健康风险却知之甚少。本文将创新性地提供两种使用Wi-Fi信道状态信息进行久坐行为识别的系统方案,使用机器学习模型以及并行长短时记忆(Long Short-Term Memory,LSTM)神经网络和卷积神经网络(Con
区块链对计算和存储资源的高需求严重限制了区块链的发展。特别的,在包括物联网在内的资源有限的环境中,区块链难以实现大规模应用。将复杂的区块链计算任务从物联网终端用户卸载到边缘或云是缓解终端用户计算压力的有效解决方案。云/边缘向物联网终端用户提供付费计算资源,物联网终端用户得以执行区块链计算任务而获益。因此,合理的云/边缘计算资源分配与定价对云/边缘和物联网终端用户的收益至关重要。应用纠删码技术是减少
随着人工智能和深度学习的快速发展,跨模态识别研究有了很大的突破。视频描述生成是一个结合了计算机视觉与自然语言的跨模态任务,它的目的是将给定的视频转换为人类可以理解的自然语言序列。简而言之,理解视频的内容对于视力正常的人来说是件简单的任务,但是对于机器或视力残障人士来说却是困难的,它可以帮助视力残障人士理解视频中的信息。视频描述生成在视频检索、人机交互等众多领域都有潜在的应用前景,这需要对视频和自然