基于VGFCC特征与复合网络的跨库语音情感识别

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:PresentScore
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
赋予机器情感计算能力对于实现真正的人工智能是必不可少的,语音是交流最简单快捷的方式,获取语音中所包含的情感信息有助于理解语音所表达的意义,因此语音情感识别成为一项热门话题。在过去的研究中,大部分是基于单一语音数据库进行的,而且已经趋于成熟,但在实际生活应用时,训练集与测试集往往存在语种、语音类型、说话人、环境、文化背景等等各种各样的差异因素,所以出现了跨数据库语音情感识别的研究。本文针对特征提取、识别模型两部分展开工作。传统的情感语音特征提取时假定信号是短时平稳的,但实际中语音信号是随时间变化的,针对于此,本文采用能够较好地处理非线性非平稳信号的变分模态算法分解情感语音信号,将不同频率进行合成再通过伽马通滤波器,求取对数,离散余弦变换之后计算统计参数得到新的情感语音谱特征;考虑到单一特征无法全面表征情感信息,选取了表达语音基本特性的韵律特征、从混沌角度描述语音信息的非线性特征以及本文提出的新的谱特征进行特征级融合,得到全局特征。基于柏林工业大学录制的德语情感数据库、太原理工大学数字音视频研究中心自建的汉语情感数据库、中国科学院自动化所录制的汉语情感数据库三种语音库进行实验,分类器选用人工蜂群优化的核函数极限学习机,将新的情感语音谱特征与韵律特征、非线性特征以及梅尔倒谱系数和伽马通倒谱系数两种传统谱特征的识别作比较,结果表明所提出的新特征是一种有效的情感语音特征,能够良好地区分不同情感。将全局特征与单一特征识别性能对比,实验结果显示融合后的全局特征识别率相较单一特征有所提高,特征级融合使得信息能够互补,同时也存在信息冗余的现象,导致全局特征某些情感的识别率低于单一特征,但总体平均识别率得到了提高。识别模型对于语音情感识别的性能至关重要,本文提出一种复合网络栈式稀疏自编码网络——核函数极限学习机,首先通过栈式稀疏自编码网络对原始特征进行无监督预训练,然后结合数据标签利用反向传播算法有监督微调,重构得到更符合大脑稀疏性且更具有区分情感信息的深度特征,最后采用人工蜂群优化的核函数极限学习机对情感进行识别分类。为了使理论研究应用于实际,本文进行了跨数据库的语音情感识别,选择上述三种语音库,提取各个语音库的全局特征,由于三种语音库共同的情感只有“悲伤”、“愤怒”、“高兴”,所以研究只针对这三类情感,分类器选择浅层学习机器:支持向量机、极限学习机、核函数极限学习机以及复合网络结构:栈式稀疏自编码网络——支持向量机、栈式稀疏自编码网络——极限学习机、栈式稀疏自编码网络——核函数极限学习机,设计了单一数据库、混合数据库、跨数据库三组实验,结果证明了复合网络结构栈式稀疏自编码网络——核函数极限学习机识别性能良好,有效改善了跨库识别率低的问题。
其他文献
目的:掌握我国《疟疾的诊断》(WS259-2015)和《疟疾控制和消除标准》(GB26345-2010)标准贯彻执行情况和标准实施存在的问题,为上述两标准的实施、修订和宣贯提供科学依据。方
蒸汽发生器是核动力系统中的重要设备,蒸汽发生器传热管束的完整性对整个系统的安全至关重要。本文综合CFD分析方法和流致振动分析模型,通过CFD软件与流致振动分析程序的外耦
刘新成参加黄莉新参加座谈4月15日至20日,全国政协副主席刘新成率调研组,来我省就"历史文化名城名镇保护"情况开展专题调研。省政协主席黄莉新参加17日上午在南京召开的座谈
自印度佛教传入中国以来,便与中国文化产生了碰撞、交流、融合。在这一系列佛教中国化过程之中,出现了独具特色的疑伪经现象。《妙法莲华经马明菩萨品第三十》正是众多敦煌疑
随着互联网时代的到来,我国许多传统的行业都在积极转型。汽车金融市场也不例外,近年来也开启了互联网+汽车金融的模式。这种依托于互联网平台的车贷形式不仅简化了线下审批
近年来,图像匹配技术作为图像处理的基础技术,已被广泛应用于各个领域,如图像拼接、医学图像处理、Visual SLAM、人脸识别、目标检测和跟踪等。所以,有效地提升图像匹配技术
随着世界经济的深入发展,区域经济相互融合的不断进步,码头集装箱吞吐流量激增,集装箱大量进入港口,又在短时间内快速大量吐出。由此,海外贸易的发展使得集装箱起重机系统的
当前,中国多类别创新平台的建设如火如荼,引发了学术界对创新平台相关研究的持续关注,但创新平台发展是否正向支持了区域创新能力的提升?政府在其中扮演着怎样的角色?等问题
图像语义分割是将一幅图像分割成语义类别不同的区域。现有的大多数语义分割方法都是基于全监督学习的,这就需要像素级标注的数据集来训练模型。这一标注过程耗时且费力,也容易因为标注人员主观不同出现偏差。弱监督语义分割方法的训练集仅需要图像级标注,从而成为计算机视觉研究的热点。而图像分割算法的精度会直接影响图像语义分割的结果,因此本文从图像分割和图像语义分割两个方面进行研究学习,具体的工作内容如下:(1)针
目标跟踪技术融合了自动控制、数学统计与分析、模式识别等多学科多领域的相关技术,一直是计算机视觉的研究热点和重点。众多的学者提出了多种多样的跟踪方法。但是这些算法