【摘 要】
:
语音情感识别作为情感计算的一个重要分支,因其快速、便捷、真实的特点,受到了广泛学者的深入研究。在过去的语音情感识别研究中,学者们多数使用传统的机器学习方法来进行语音情感识别的研究。然而近几年随着深度学习的火热,深度学习方法在各个领域中都表现出了优异的性能,成为其中的翘楚。本文主要工作是研究如何使用神经网络提取语音中的情感信息,选择出利于情感识别的语音特征,进而提高语音情感识别效果。主要工作如下:(
论文部分内容阅读
语音情感识别作为情感计算的一个重要分支,因其快速、便捷、真实的特点,受到了广泛学者的深入研究。在过去的语音情感识别研究中,学者们多数使用传统的机器学习方法来进行语音情感识别的研究。然而近几年随着深度学习的火热,深度学习方法在各个领域中都表现出了优异的性能,成为其中的翘楚。本文主要工作是研究如何使用神经网络提取语音中的情感信息,选择出利于情感识别的语音特征,进而提高语音情感识别效果。主要工作如下:(1)本文提出了一种基于空间和通道双重注意力机制的语音情感识别方法。因一段语音中包含了多个语音片段,不同的语音片段对情感识别的重要程度不同。将一段语音信号分割成多段音频,分别用预训练模型VGG16提取每个语音片段的深度语音情感信息,再借助空间和通道注意力机制,筛选出有利于语音情感识别的特征,赋予高的权重,来提高语音情感识别的效果。使用双重注意力机制在e NTERFACE’05、AFEW和IEMOCAP数据库上进行仿真实验,分别得到了58.98%、36.12%和71.31%的识别率,相较于传统的语音情感识别方法,提高3.1%、9.8%和13.14%的识别率。(2)本文提出了一种核选择注意力机制的语音情感识别方法。核选择注意力机制使用多种尺寸的卷积核提取语音中的情感信息,不同尺寸的卷积核具有不同大小的感受野,可以提取到不同的语音情感特征,特征的重要程度也不尽相同。对不同卷积核提取到的特征赋予不同的权重。核注意力机制中采用了1?1大小的卷积核,可以对不同通道间的信息做线性组合,实现通道间的信息交流;还可以在保持特征图尺寸不变的情况下,增加特征图的非线性表达能力,有利于在更深的网络中提取更高级的情感特征。核注意力机制中还采用了3?3、5?5、7?7大小的卷积核,随着卷积核尺寸的增大,感受野也随着增大,可以提取到的信息就越多,能够获得更好的局部特征。而较小尺寸的卷积核可以观察到更多的细节信息,实现语音情感的精准识别。使用核选择注意力机制在三个数据库上进行仿真实验,分别得到了58.42%、35.22%和68.46%的识别率,相较于传统的语音情感识别方法,提高2.54%、8.9%和10.64%的识别率。(3)因语音情感识别具有时间特性,本文提出了一种基于空时特征的语音情感识别方法。语音信号转换成声谱图的形式,不光具有空间特征,帧与帧之间还具有时间特征。针对语音信号的空间和时间特征,提出了一种基于并行空时特征的语音情感识别方法,并在此模型的基础上,改进了网络结构,提出了基于交叉空时特征的语音情感识别。在前人的研究中,卷积神经网络可以提取图片中丰富的空间特征,但是针对特定的语音情感识别任务,承载情感的语音在一段时间中具有相关性,卷积神经网络并不能提取这些时间特征,所以需要借助循环神经网络提取语音中的时间特征。将两路神经网络中提取到的空间和时间特征进行拼接,得到带有空间和时间的语音情感特征用来做语音情感的识别。并行空时特征的语音情感识别方法在三个数据库中分别得到了57.68%、33.90%和65.11%的识别率。然而上述的特征拼接方法不能实现空间和时间特征之间的信息交流,针对上述方法的缺陷,提出了一种基于交叉空时特征的语音情感识别方法,加强了不同特征之间的信息交流,交叉空时特征的语音情感识别方法在三个数据库中分别得到了58.61%、38.10%和70.89%的识别率,相比于并行空时特征的语音情感识别方法,提高了0.93%、4.2%和5.78%的识别率。
其他文献
随着无人机技术和计算机视觉技术的快速发展,赋予无人机(UAV)视觉感知和认知能力正在成为一个热门研究方向。目标检测作为计算机视觉领域的主要研究内容,是许多计算机视觉应用的基础任务。因此,研究如何在无人机航拍图像上实施高效目标检测对无人机应用的发展尤为重要。由于拍摄高度的原因,航拍图像中的很多目标在整张图像中所占的比例远小于一般数据集中目标所占的比例,因此航拍图像中存在很多小尺寸目标。这些小尺寸目标
跨模态检索是指具有不同模态形式的数据之间的相互检索,即以一种模态的数据作为查询去检索另一种模态数据的过程。哈希方法因其低存储成本、快查询速度的显著优势受到越来越多的关注并被广泛应用于跨模态检索领域。然而,很多基于哈希的跨模态检索方法用传统手工设计的方式提取特征,这种方式提取出的特征质量不高,会严重降低检索的准确率。近年来深度学习发展迅速,基于深度模型提取的高质量特征使得检索的准确率显著提高,从而受
无线传感器网络(Wireless Sensor Network,WSN)在军事以及民事上有着广泛的应用。在其众多应用中,节点定位技术是一项重要的、基础性的技术。WSNs的节点定位算法根据现有定位技术,可分为基于测距以及基于非测距这两大类算法。非测距算法中的DV-Hop算法因其具有成本低、通信量小、实施简单等特点,使其成为非测距算法中研究较多的一种定位算法。本论文重点针对经典DV-Hop算法进行研究
无线射频识别(Radio Frequency Identification,RFID)技术是一种通过特定频率的无线射频信号进行通讯的双向数据传输技术,能够实现自动化、非物理接触式自动识别的功能。RFID技术的不断推广使其逐渐成为推动物联网发展的核心技术之一。区别于传统的识别技术,除了具备非接触的优点,同时兼备读取信息方便准确、速度快、使用寿命长、抗干扰性强等诸多优点。目前RFID技术已经应用到包括
无线射频识别(Radio Frequency Identification,RFID)技术是物联网中信息传感技术之一,是利用无线射频信号实现的非接触式自动识别技术。因为RFID抗污染性好和穿透性强等优势,其已被广泛应用于商业、交通和医疗等场景。然而,由于RFID的非接触通信方式,RFID系统存在各类安全威胁,通常采用安全认证协议来保证RFID系统的安全性。同时,对于低成本的无源标签,现有的安全认证
随着移动通信技术的发展以及智能手机等移动终端的普及,通信数据呈现指数级的增长。手机用户在打电话、发短信和上网过程中会产生大量的手机信令数据,这些数据无法通过人工来分析处理。然而随着大数据技术的来临,这些数据蕴藏的价值也越来越凸显。在此背景下,本文提出了基于手机信令大数据的目标轨迹分析和提取的方法。目前对于轨迹分析研究主要采用的是GPS定位数据,其定位精度高但受天气等因素影响较大。相比于GPS定位数
面对井喷式增长的网络流量和提升用户隐私保护的要求,基于端口号和有效载荷的传统流量分类方法已经无法满足快速实时的分类要求。在迅猛发展的互联网时代,网络流量分类技术对于提高网络的管理效率,提升用户的网络体验,保障网络环境的绿色和安全有着至关重要的作用。因此本文深入流量分类技术的研究,研究内容分为以下三个方面。首先,面对加密流量难以提取有效信息的问题,本文提出了一种基于改进DCGAN的加密流量数据生成方
随着网络通信技术的不断发展和基础设施的迅速完善,云计算和边缘计算逐渐走向成熟,这两种计算模式在处理复杂任务时各有优势,因此将云计算中心化处理和边缘计算就近处理结合的云边融合计算应运而生。然而云边融合计算在提供高效计算能力的同时,其所面临的数据安全与隐私保护问题也愈发突出。一方面,云计算部分已经成为数据挖掘的强有力保障,那么如何在数据挖掘和保护用户隐私之间进行权衡,在保证隐私信息安全的前提下获得数据
跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)是一种在没有足够的历史缺陷数据情况下建立精确预测模型的可行解决方案,因此近些年来CPDP成为了一个研究热点。尽管现有的CPDP方法已取得了不错的预测结果,但其预测性能仍有一定的提升空间。一方面,现有的大多数CPDP方法未能在减小数据分布差异的同时充分利用可用的标签信息。另一方面,近些年有相关研究工作从软件源代
目标跟踪是机器视觉中的一个重要分支,其目的是对视频中的指定目标进行跟踪。从跟踪数据集来看主要分为地面监控视频和无人机监控视频,本文考虑几种主要的无人机视频数据集和一个地面监控视频数据集。相关滤波的目标跟踪算法在视频跟踪中表现出良好的性能,其中的自适应空时感知算法是最近比较热门的模型之一。评价目标跟踪性能的两个重要指标是准确度和精确度,本文从这两个指标出发,对自适应空时感知模型进行分析和改进。为了解