语音/音频混合编码器中的信号分类算法研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户：xiaodehuwei12

【摘要】

：

语音/音频混合编码器依据输入信号的类型,选择对应的编码算法,在统一框架下获得了对语音和音乐信号的最佳编码增益。信号类型判断的准确率是混合编码器编码质量的决定性因素

【作者】

：

杨万钊

【出处】

：

武汉大学

【发表日期】

：

2018年01期

【关键词】

：

混合编码器编码方法选择信号分类算法循环神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音/音频混合编码器依据输入信号的类型,选择对应的编码算法,在统一框架下获得了对语音和音乐信号的最佳编码增益。信号类型判断的准确率是混合编码器编码质量的决定性因素之一。3GPP 编码标准 AMR-WB+(Extended Adaptive Multi-Rate-Wideband codec)和 EVS(Codec for Enhanced Voice Service)是混合编码器的典型代表。AMR-WB+的编码模式有闭环模式和开环模式,闭环模式拥有较高的编码质量,但计算复杂度也高;开环模式的计算复杂度显著下降,但信号分类准确率较低,导致编码质量欠佳。而EVS标准不存在闭环模式,编码复杂度低,但其基于高斯混合模型(Gaussian Mixed Model,GMM)的信号分类准确率仍有提升空间。针对上述问题,本文考虑到神经网络在信号分类中的突出表现,以及音频信号连续样本之间的时间相关性,提出基于循环神经网络(Recurrent Neural Net-work,RNN)的语音/音乐信号分类算法,针对上述两个编码标准的实际情况,进行网络设计、优化与实现。主要工作与贡献包括:(1)面向AMR-WB+的RNN分类器从AMR-WB+编码参数中选取特征,并以闭环模式选择的信号类型作为数据标签,构成训练数据,对设计的RNN网络进行训练,建立适用于AMR-WB+开环模式的语音/音乐分类算法。目标是使开环模式下的信号分类结果拟合闭环模式下的模式选择结果,从而以开环模式的计算复杂度,获得闭环模式的编码质量。为满足该需求,本文设计实现了面向AMR-WB+的RNN分类器,在实验过程中解决了训练数据不平衡等问题,并从优化编码信噪比的角度针对性地对RNN网络进行输出控制,使得重建音频信号的信噪比得到最大化的提升。实验结果显示,本文提出的面向AMR-WB+的RNN分类算法复杂度与开环模式相当,分类准确率的提升率达到接近20%,编码主观质量与闭环模式相当。(2)面向EVS的RNN分类器EVS无法利用类似AMR-WB+闭环编码的方式获得数据标签,只能依靠主观判断得到数据标签。为保证主观标签的可靠性,必须保证数据的纯度。为此,本文选择专业音频数据库中的语音和音乐数据,构成训练集和测试集。以EVS原有分类器的分类特征作为本文的分类特征。经过分析和实验,确定RNN网络的相关参数。实验结果显示,对语音和音乐数据,基于RNN的分类器的分类准确率均优于EVS原有分类器,尤其是对音乐数据,分类准确率提升更为明显。本文所做工作对于提升语音/音频混合编码器的性能具有重要意义。

其他文献

符号学在汉字图形化设计中的应用

从汉字的基本形态上看,汉字是由外部形态特征和内部涵义构成的,因而可以采用变形求意、借形增意、以意传情的创新方法对汉字进行图形化设计。通过符号学的分析方法,将汉字与

期刊

符号学汉字图形化创新性设计方法应用

俞正声:深入实施精准扶贫精准脱贫加快民族地区经济社会发展

<正>中共中央政治局常委、全国政协主席俞正声近日在湖南调研时强调,要深入学习贯彻党的十八届五中全会精神,坚持"四个全面"战略布局,牢固树立和贯彻创新、协调、绿色、开放

期刊

精准脱贫精准扶贫民族地区经济俞正声

超声对早期糖尿病肾病的诊断价值及肾动脉血流阻力指数与血清hs-CRP、VEGF的关系分析

目的:研究彩色多普勒超声对早期糖尿病肾病的诊断价值及肾动脉血流阻力指数与血清超敏C反应蛋白(hs-CRP)、血管内皮生长因子(VEGF)的关系。方法:选取从2017年2月～2018年2月兰

期刊

早期糖尿病肾病彩色多普勒超声诊断肾动脉血流阻力指数超敏C反应蛋白血管内皮生长因子

心血管标志物POCT院内质量管理实践

目的心脏标志物point-of-care testing(POCT)检测因其快速、便捷的特点已经成为急重症临床科室的需求对象。本文介绍了阜外医院在规范化管理心脏标志物POCT实践中的积极探索

期刊

心血管标志物POCT质量管理

温胆颗粒降脂与促眠药效学研究及急性毒性研究

本课题所研究对象为温胆汤改良方,在秉持古方“痰”、“湿”、“热”为治疗基础的制方宗旨上,加以改良。本改良方中包含人参、石菖蒲、川芎、远志、法半夏、陈皮、枳实与茯苓

学位

温胆颗粒高脂血症失眠急性毒性

大跨活性粉末混凝土混合梁连续刚构桥的结构性能

采用活性粉末混凝土取代钢材或轻质混凝土应用于混合梁桥主梁中,在有效减轻结构自重、增大结构跨越能力的同时可避免采用构造复杂的钢-混结合段及目前性能欠佳的轻质混凝土,

期刊

桥梁工程混合梁桥有限元分析活性粉末混凝土结构性能

现代舞的种种…… 观《十舞》

国家大剧院2016年秋季演出季如约而至。10月13日至14日,以色列巴切瓦舞蹈团的现代舞作品《十舞》在国家大剧院上演,整场演出带给观众的除了动作的酣畅淋漓之外,更多的是一种

期刊

现代舞《十舞》

HX_D3B型电力机车通风系统常见故障分析及对策

针对HXD3B型机车运用过程中发生的通风冷却系统故障,结合结构设计及工作原理进行分析,提出了几点维护建议及改进措施。

期刊

HXD3B型电力机车通风系统冷却塔

高校景观专业雕塑课程设置研究

全国多个综合类高校都设置了艺术和设计专业方向。其中,环艺设计专业方向的课程中,雕塑作为一门立体造型研究的基础课程有着举足轻重的作用。随着近年来高校艺术专业的建设,

期刊

高校景观设计雕塑课程

电子调速器配机性能综合试验台设计研究

本文介绍了电子调速器配机性能综合实验台的设计原理及相关系统的实现。整个实验台架主要由两台D6114柴油发电机组、数字式电子调速系统、数据监控系统、自动加载控制系

学位

柴油机电子调速监控系统

语音/音频混合编码器中的信号分类算法研究

其他学术论文