论文部分内容阅读
语音的数字化分析和处理是语音信号数字传输和数字存储的重要过程。随着语音通信技术的发展,高音质、低带宽等优点一直是人们追求的目标,语音压缩编码在实现这一目标的过程中担当着十分重要的角色。目前语音信号的分析与压缩编码都是采用线性理论和线性预测编码技术,而语音信号的产生系统是一个复杂的非线性时变系统,具有混沌性和分形特征,所以采用线性方法来对语音进行处理无法从根本上提高语音传输和存储的性能。因此,论文在深入研究了语音信号非线性特性的基础上,结合径向基神经网络(简称RBF神经网络,Radical Basis Function Network)构造了一个语音信号非线性预测模型,并基于该模型设计出一个非线性预测编码系统。论文主要研究工作和创新点如下:(1)语音信号的混沌性检测和分形特征在非线性理论的基础上,针对汉语语音音素非线性特征参数的求解算法进行了研究,提出采用Wolf算法计算出33个汉语语音音素的最大Lyapunov指数,所得结果证明了汉语语音信号具有混沌性。然后采用GP算法求解出33个汉语语音音素的关联维数,根据所得结果说明浊音信号的产生系统是低维系统,而部分清音的发音系统是高维系统。(2)语音信号的相空间重构及其参数确定对语音信号非线性预测的理论依据以及预测工具进行了分析,并研究相空间重构参数——延迟时间和嵌入维数的确定方法。针对C-C算法存在的局限性,采用结合自相关算法、虚假近邻法的方法分别求解出汉语语音音素的延迟时间和嵌入维数。针对实验中采样率的选择和语音源的问题,论文运用统计分析的方法进行了研究,所得结果表明计算出的延迟时间和嵌入维数对不同的采样率和语音源具有较强的鲁棒性。(3)基于RBF神经网络的汉语语音非线性预测模型将汉语语音音素的非线性特征参数与RBF神经网络分析方法相结合,提出根据所计算出的33个汉语语音音素的延迟时间及嵌入维数作为RBF神经网络模型中三层网络神经元个数,构造出一个基于RBF神经网络的汉语语音信号非线性预测模型,并将该预测模型与现有的ADPCM线性预测模型进行了性能比较,仿真结果表明非线性预测模型预测误差较小,说明所提出的非线性预测模型具有更好的预测性能。(4)基于小波变换的语音增强处理针对语音信号的预测编码性能在噪声环境下会迅速下降的问题,研究了基于小波变换的语音增强处理技术,着重对小波去噪算法中的阈值去噪法进行了研究。一方面,针对阈值去噪算法中的传统阂值的选取难以适应非平稳噪声的这一缺点,将MCRA算法应用于小波域计算其噪声方差,得到随实时变化的噪声估计,并利用谱平坦度自适应调整阈值;另一方面,针对传统的软硬阈值函数的不足,在Breiman提出的非负死区阈值函数的基础上进行了改进,设计出一种改进的阈值函数,并从连续性、单调性等方面进行分析,验证其合理性。(5)语音E-CENP编码系统的设计运用构造出的非线性预测模型,结合增强处理和CELP语音编码算法,设计了一个非线性预测编码系统——E-CENP。系统中,预处理部分加入了所提出的小波变换的语音增强处理,预测器部分采用了所设计的RBF神经网络的非线性预测模型。仿真结果表明:与CELP线性预测编码系统相比,该非线性预测编码系统具有编码语音质量高、鲁棒性好等优点。论文运用非线性的理论和方法,构造了一个E-CENP语音编码系统,与CELP编码系统相比,该编码系统编解码后恢复出的语音信号的音质比较高而且鲁棒性较好,说明所提出的非线性理论的研究方法适合于具有非线性特性的语音,为语音信号的处理技术提供了新的思路和新的方法。