基于多尺度特征融合和决策树CNN的语音情感识别技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:z315659288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能(Artificial Intelligence,AI)技术的快速发展,语音情感识别技术已经成为当前的研究热点。在语音情感识别技术中,情感特征的区分性和分类器模型的鲁棒性是影响系统性能的主要因素。为了提升语音情感识别系统性能,本文从提取高区分性的情感特征和构造鲁棒的分类器模型两个角度出发,提出了基于多尺度特征融合和多任务学习的语音情感识别方法以及基于决策树CNN和多任务学习的语音情感识别方法。具有的研究工作如下:(1)本文首先介绍了语音情感识别技术的研究背景和研究现状。然后总结了语音情感识别系统的基本架构,并且介绍了系统各模块所涵盖的相关知识,包括语音情感数据库、语音信号预处理技术和常用的情感特征。最后介绍了全局统计量计算方式、特征预处理技术以及深度学习相关理论等,为后续研究工作奠定基础。(2)由于在不同尺度帧长下所提取的情感特征具有差异性,融合多尺度特征可以充分利用特征的多样性。为了更全面地挖掘语音信号中的情感信息,本文提出了基于多尺度特征融合和多任务学习的语音情感识别方法。首先,对语音信号进行预加重、分帧、加窗和端点检测等预处理。然后,在不同尺度帧长下提取MFCC及其一阶差分动态特征、能量、基音频率和短时过零率。之后,对每种尺度帧长下的多类情感特征计算统计特性以表征语音情感的全局统计特性。最后,将多个尺度帧长下的统计特征进行融合。另外,本文构建了一个基于多任务学习策略的卷积神经网络(Convolutional Neural Network,CNN)模型,在CNN模型中加入语音性别分类作为辅助任务,基于多任务学习策略使语音情感分类主任务学习到有利于情感分类的特征,提高模型的泛化能力。在EMO-DB和CASIA情感数据库上的实验结果表明,基于多尺度特征融合和多任务学习的语音情感识别方法可以有效提升语音情感识别性能。(3)在基于多尺度特征融合和多任务学习的语音情感识别方法中,语音情感识别率很大程度上受某几类易混淆情感的影响。针对此问题,本文提出了基于决策树CNN和多任务学习的语音情感识别方法,通过所构建的决策树模型实现由粗到细地对情感进行有效划分,进一步提升易混淆情感的识别性能。首先,根据情感混淆矩阵计算情感之间的混淆度,然后,根据情感混淆度构建决策树模型并将情感划分到不同的小组。最后,针对不同的情感小组,构建针对该情感小组的多任务CNN模型,并对多任务CNN模型中的多任务学习超参数进行优化。在CASIA情感数据库上的实验表明,基于决策树CNN和多任务学习的语音情感识别方法相较于基于多尺度特征融合和多任务学习的语音情感识别方法在识别率上有明显地提升。
其他文献
我国经济发展已迈入“新常态”,转换经济增长动力、优化升级产业结构等新挑战不可小觑。在我国发展与变革的节点上,推动制造业的转型升级,提高制造业实力和竞争力,增强国家综合国力,是经济结构调整和实现社会主义现代化的关键。为激励制造业技术创新政府采取了税收优惠、财政支持等补贴政策大力度扶持,而政府补贴的成效问题也倍受社会关注。与此同时,随着大数据时代的到来,工业互联网、大数据、人工智能、云计算等数字科技不
由于建筑项目的综合性,复杂的城市基础设施、公共和民用建筑建设与管理中,均涉及几十种专业,而每一种专业又基于多款不同的专业应用软件,这种现状已成为常态。当开展建筑项目数据应用时,各软件之间不可避免地需要进行数据交互,而多种不同的软件数据格式必然增加城市建筑项目大数据搜索、提取和管理的难度。不解决城市建筑项目数据的提取与管理问题就无法实现智慧城市的信息化管理。因此,本文基于建筑信息模型(Buildin
随着工业互联网等场景的出现和发展,越来越多的应用要求端到端传输的低时延和低时延抖动,即时延确定性。基于尽力而为服务的标准以太网对这种时延确定性需求力不能及,因此时间敏感网络(Time-Sensitive Networking,TSN)应运而生。TSN由一系列涵盖时间同步机制、分组的调度和转发机制以及网络的管理和配置等方面的标准组成,旨在通过对标准以太网做有限的修改来保障确定性业务的时延确定性,同时
血管生成现在被认为是癌症的标志,与肿瘤的远处转移息息相关。趋化因子CXCL5涉及肿瘤发生发展的多个过程,且与血管生成密切相关。然而,CXCL5在结直肠癌血管生成中的作用尚未完全明确。在课题组之前的研究中,证实了CXCL5在肿瘤组织中高表达,且与结直肠癌患者的肿瘤分期以及不良预后相关。接下来,将继续探讨CXCL5对结直肠癌血管生成的影响。首先,采用免疫组织化学方法检测了结直肠癌患者标本组织中CXCL
随着经济社会和科学技术的不断进步,企业之间的竞争早已由产品竞争转为服务竞争。呼叫中心作为企业直接为客户提供服务的窗口,其重要性日益凸显。如何对呼叫中心话务量进行准确预测,已经成为管理者和学术界的关注焦点。本文基于现有国内外研究成果,引入时间序列预测模型以考虑短期话务量的时间惯性,引入深度神经网络模型以考虑长期话务量的时间相关性;通过设计的预测周期内时间可变权重,构建了融合时序预测模型和深度神经网络
研究目的:滋养细胞功能障碍是复发性流产的发病机理之一,母胎界面中滋养细胞发挥正常功能受多种因素调节,调节机制目前尚未阐明。基于发病机制的研究,是探索全新治疗手段的重要途径和理论基础。本课题通过临床样本分析和细胞功能实验探讨调控滋养细胞功能的分子机制,以期阐明EIF5A1基因在滋养细胞功能调控和复发性流产发病中的作用。研究方法:采用实时荧光定量PCR和蛋白质免疫印记方法检测小样本早孕不明原因复发性流
因单光子雪崩二极管(Single Photon Avalanche Diodes,SPAD)高灵敏度、高速、高增益的特点,使得基于SPAD的光子飞行时间(Time-of-Flight,TOF)激光雷达探测具有成像速度快、分辨率高、灵敏度高等潜在优势,并成为现如今倍受关注的一种雷达探测技术,具有广阔的应用前景。然而TOF读出电路作为SPAD激光雷达探测器的重要组成部分,目前仍然存在集成度低、探测范围
第一部分:宫内高雄激素暴露大鼠模型的建立及子代大鼠心脏结构和功能学检测研究目的:研究宫内高雄激素暴露对子代大鼠心脏结构和功能的影响。研究方法:宫内高雄激素暴露大鼠模型的建立。随机选取10只孕鼠对照组,于妊娠15-19天每日颈背部皮下注射玉米油0.5mg/kg/day;另选取10只孕鼠为高雄激素暴露组,于妊娠15-19天每日颈背部皮下注射丙酸睾酮油0.5mg/kg/day,两组均连续注射药物5天,在
目的:口腔鳞状细胞癌(OSCC)是头颈部肿瘤中是最为常见的类型之一,局部复发、颈部淋巴结转移及较晚的临床分期被认为是引起不良预后的主要原因。白介素-17(Interleukin-17)作为肿瘤炎性微环境的重要组成部分,在多种恶性肿瘤中的重要作用已被证实,已有研究发现在OSCC中,IL-17由存在于肿瘤微环境中的多种细胞所分泌,并对OSCC的侵袭、转移发挥重要作用,但目前尚缺乏其详细机制的报道。既往
研究目的口腔颌面部因肿瘤、外伤等因素造成的骨缺损将严重影响语言、进食等生理功能,传统的自体骨移植修复骨缺损会存在二次损伤、骨量不足等缺点。近年来随着骨组织工程领域的迅猛发展,人工骨修复材料应用于骨组织缺损的修复与再生得到了广泛而深入的研究,良好的骨修复材料不仅要有优良的生物相容性,还应具有可以模拟天然细胞外基质的三维纤维网络结构。因此,本研究充分发挥丝蛋白(SF)天然高分子材料以及静电纺丝技术的优