论文部分内容阅读
语音/音频混合编码器依据输入信号的类型,选择对应的编码算法,在统一框架下获得了对语音和音乐信号的最佳编码增益。信号类型判断的准确率是混合编码器编码质量的决定性因素之一。3GPP 编码标准 AMR-WB+(Extended Adaptive Multi-Rate-Wideband codec)和 EVS(Codec for Enhanced Voice Service)是混合编码器的典型代表。AMR-WB+的编码模式有闭环模式和开环模式,闭环模式拥有较高的编码质量,但计算复杂度也高;开环模式的计算复杂度显著下降,但信号分类准确率较低,导致编码质量欠佳。而EVS标准不存在闭环模式,编码复杂度低,但其基于高斯混合模型(Gaussian Mixed Model,GMM)的信号分类准确率仍有提升空间。针对上述问题,本文考虑到神经网络在信号分类中的突出表现,以及音频信号连续样本之间的时间相关性,提出基于循环神经网络(Recurrent Neural Net-work,RNN)的语音/音乐信号分类算法,针对上述两个编码标准的实际情况,进行网络设计、优化与实现。主要工作与贡献包括:(1)面向AMR-WB+的RNN分类器从AMR-WB+编码参数中选取特征,并以闭环模式选择的信号类型作为数据标签,构成训练数据,对设计的RNN网络进行训练,建立适用于AMR-WB+开环模式的语音/音乐分类算法。目标是使开环模式下的信号分类结果拟合闭环模式下的模式选择结果,从而以开环模式的计算复杂度,获得闭环模式的编码质量。为满足该需求,本文设计实现了面向AMR-WB+的RNN分类器,在实验过程中解决了训练数据不平衡等问题,并从优化编码信噪比的角度针对性地对RNN网络进行输出控制,使得重建音频信号的信噪比得到最大化的提升。实验结果显示,本文提出的面向AMR-WB+的RNN分类算法复杂度与开环模式相当,分类准确率的提升率达到接近20%,编码主观质量与闭环模式相当。(2)面向EVS的RNN分类器EVS无法利用类似AMR-WB+闭环编码的方式获得数据标签,只能依靠主观判断得到数据标签。为保证主观标签的可靠性,必须保证数据的纯度。为此,本文选择专业音频数据库中的语音和音乐数据,构成训练集和测试集。以EVS原有分类器的分类特征作为本文的分类特征。经过分析和实验,确定RNN网络的相关参数。实验结果显示,对语音和音乐数据,基于RNN的分类器的分类准确率均优于EVS原有分类器,尤其是对音乐数据,分类准确率提升更为明显。本文所做工作对于提升语音/音频混合编码器的性能具有重要意义。