论文部分内容阅读
建立VoIP语音评价模型有越来越重要的技术意义和商业意义。语音质量的评价包含主观方法和客观方法。其中主观方法(e.g. MOS)是客观方法的基准,但是主观方法缓慢,耗时,昂贵。客观方法包含干扰式语音评价和非干扰式语音评价。有许多因素影响IP电话语音质量,我们把这些因素划分成两种类型:网络因素(e.g.丢包,抖动和延迟等)和非网络因素(e.g.编码类型,回音,噪声等).本文主要的目标是分析不同因素对语音质量的影响,并给出新型的高效的模型评价VoIP语音质量。我们建立一个新的VoIP模拟平台,实验中网络仿真软件采用NIST Net,语音通信协议由OpenPhone实现。这个模拟实验环境和其他研究者的模拟环境相比更为‘真实’。我们的研究工作和贡献包括:1)分析延迟抖动标准差和语音语种因素对语音质量的影响,分别提出了两种对标准E模型的扩展方法,基于延迟抖动标准差的扩展E模型和基于语音因素的E模型的扩展方法.我们首先分析了网络延迟抖动对网络语音的影响,通过实验揭示了把延迟抖动的标准差来作为参数描述延迟语音质量是合理的,据此对标准E模型进行了扩展,结果得到了验证。之后,我们还分析了语音因素对网络语音的质量影响,我们仔细的选择实验语音,发现不同语种性别的语音在相似环境下语音质量是略有差别的,并给出了对于E模型的修正系数Il。近年来,网络的自相似特性被广泛揭示。自相似特性可以用Hurst系数H(0.5<H<1)来刻画。有些研究者把Hurst系数作为网络参数引入到语音评价模型里面,用该参数描述网络抖动特征对语音质量的影响。在我们的研究过程中,我们发现在我们的实验环境中,Hurst系数并不适合引入来描述网络语音质量,我们分析其原因可能与时间尺度相关。2)提出一个新的神经网络模型。神经网络模型最近被用来评价语音和视频质量,但是早期的方法依赖于主观测试生成训练序列,不幸的是主观方法代价比较高,很难考虑复杂细致的输入条件,比如Internet的变化因素。L.Sun在2002年提出一个基于客观测量的神经网络模型,但受限于没有使用最新的PESQ评分标准,并且模拟实验平台过于简单。Al-Akhras在2009年提出的是一个与E模型混合式的神经元方法,输入层只考虑了丢包因素的影响,没有考虑语音编码等基本要素,最后实现中还需要复杂的主观测试。我们使用了最新的PESQ算法,实验平台采集的数据更为真实可靠。我们增加了参数延迟标准差和语音变量作为输入元素,并验证了模型是准确有效的。3)提出基于多元回归算法的语音质量评价模型。我们根据参数延迟标准差和网络丢包率提出基于多元回归算法的语音质量评价模型,并对不同回归函数进行了比较和验证。通过数据分析,三次回归方程和两次带交叉项的回归方程的准确性比较好,计算复杂度也不高,适合VOIP语音质量的评价。