基于子空间的低计算复杂度语音增强算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:dxlwwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号在语音通信系统中不可避免地受到环境噪声的干扰。语音增强是降低和抑制噪声干扰,提高语音系统通信质量的主要方法,在语音编码、语音识别、语音合成等方面得到了广泛的应用。语音增强的主要目标是从含噪语音信号中提取出尽可能纯净的原始语音,提高语音信号的可懂度和清晰度。语音增强算法可以抑制或减少噪声干扰,但同时也不可避免地会对原始语音造成一定的失真,从而导致语音增强算法的内在矛盾:较好的噪声抑制会带来较多的语音失真,而减小语音失真往往使噪声得不到足够的抑制,各种语音增强算法都力求在二者之间寻求最佳。子空间语音增强算法具有控制语音失真和残余噪声的平衡机制,是本文提出的几种新算法的研究基础。子空间方法的基本思想是首先将含噪语音信号空间分解为两个正交子空间,即信号子空间和噪声子空间。信号子空间除了包含语音信号,还包含噪声信号,通过去除噪声子空间的噪声信号,并保留信号子空间的语音信号分量,这样就可以从信号子空间中尽可能多地提取出原始语音信号。子空间方法大多要求对语音数据矩阵进行特征值分解,计算复杂度为O(K~3)(K是采样语音数据的帧长)。在许多实际应用中,语音数据矩阵是时变的,此时需要解决在一次或几次采样的基础上自适应地估计出时变语音数据矩阵的瞬时特征值分解。因此,探索子空间类算法的自适应形式成为语音增强的一个重点研究方向。由于广义子空间方法具有较大的计算量,不适合实时实现。显然,对于各种涉及到特征值分解的子空间方法也都存在类似的问题。为了降低算法的计算复杂度,提高语音增强算法的性能和实时性,本文提出了一种低复杂度的子空间语音增强算法。该算法利用了在工程应际中广泛使用的子空间迭代法,子空间迭代法是解决大型广义特征值问题的有效方法。通过重复使用一维子空间迭代,可以对语音数据矩阵的所有特征值和相应的特征向量进行迭代估计,从而实现语音增强。从本文算法的推导过程可以看出,通过语音数据矩阵的特征向量和特征值的迭代估计,本文提出的语音增强算法的计算复杂度降低为O(K~2),当K很大时,本文算法低复杂度的优越性更加明显。此外,本文算法没有要求背景噪声的特性,因此本文算法对于各种类型的噪声都是适用和有效的,是一种最优估计算法。通过几个语音质量评价结果可以看出,本文算法对白噪声和彩色噪声都有较好的效果。低复杂度的特点更利于本文算法在实际语音应用中的实现。同广义方法相比,增大本文算法的帧长可以在较少的迭代计算中提高语音增强的质量,而广义方法的计算复杂度将会大大地增加。在低信噪比的情况下,本文算法的性能更好,即如果在信噪比和帧长的选择之间达到平衡时,就能够获得可接受的增强语音质量,这也证明了本文算法的优越性。引入了投影近似子空间跟踪的传统自适应子空间语音增强算法是基于一些假设来实现的。在非平稳噪声环境和低信噪比的情况下,如果我们将此算法作为语音增强的基础,则语音增强的性能是不能令人满意的,甚至是不可接受的。为了克服这些缺点,本文提出了一种用自适应离散余弦变换(DCT,Discrete Cosine Transform)近似卡洛南-洛伊变换(KLT,Karhunen-Loève Transform)的子空间语音增强算法,实现了含噪语音协方差矩阵的特征值和特征向量自适应估计。通过引入自适应DCT来近似KLT,在各个方面实现了语音质量的改进。从本文算法的推导过程可以看出,含噪语音协方差矩阵的特征值和特征向量估计的计算复杂度是O(K)。因此,本文推导出的自适应子空间语音增强算法很容易在实际中实现。另外,本文算法没有对噪声的随机特性做出假设,适用于各种类型的噪声信号。由于本文算法不需要特征值分解,因此具有收敛速度快、估计精度高的特点。仿真结果表明,本文算法在不同噪声环境下实现了较好的递推形式的语音增强,且语音失真比传统自适应算法低。特别是在非平稳噪声环境和低信噪比的情况下,本文算法的优越性更为明显。最大似然自适应子空间估计(MALASE,Maximum Likelihood Adaptive Subspace Estimation)是处理快速自适应特征值分解问题的新方法。MALASE采用随机算法,通过最大似然准则实现对子空间的跟踪,跟踪结果是数据矩阵的特征向量和特征值的自适应迭代估计,实现了数据矩阵的瞬时特征值分解,运算复杂度为O(K~2)。由于使用了类似Givens旋转技术,保证了每次迭代所估计的特征向量严格正交,这是MALASE算法一个非常显著的优点。本文提出一种MALASE和噪声特征值估计相结合的子空间语音增强算法,不需要特征值分解和语音活动性检测(VAD,Voice Activity Detection)。通过MALASE可以得到含噪语音协方差矩阵的特征值和特征向量,之后利用子空间域噪声特征值估计算法,结合语音存在概率,对含噪语音协方差矩阵的特征值进行递归平滑得到噪声特征值估计,实现了噪声的连续估计和不断更新。与传统算法和最小控制递归平均(MCRA,Minima Controlled Recursive Averaging)算法相比,本文算法可用于不同类型的噪声环境,具有估计精度高、易于实现、语音失真小、噪声小、整体质量好等优点。本文算法也适用于低信噪比和非平稳噪声环境的应用。
其他文献
将从煤,天然气和生物质经合成气(CO和H2)转化为燃料和化学品是C1化学领域中最具挑战性的课题之一。作为重要的化工原料,烯烃包括低碳烯烃(C=2-4,即乙烯、丙烯和丁烯)和长链烯烃
基于纳米材料与有机聚合物复合的电双稳存储器件由于快速响应、非破坏性读取、高存储密度和易于制备等特点备受关注。已有研究结果显示纳米材料中与表面缺陷以及量子尺寸相关
随着数字化矿山的提出和推进,矿山数据信息化已经越来越重要了。财务评价作为矿山数据信息化的重要一环,其地位越来越重要。开发矿山企业财务评价系统,旨在矿山开采之前就能
茎秆抗折力是茎秆抗倒伏能力的基础,与茎秆弹性、硬度、充实度以及物质转运等有着紧密的联系。本文在大田条件下研究了3个株高域(矮杆60-70cm、中杆70-80cm和高杆80-90cm);12
本篇论文主要介绍了(+)-JQ1的背景研究,合成现状和我们的合成方法以及雷公藤乙素的背景研究和我们的合成研究。本篇论文主要分为绪论,(+)-JQ1的合成研究和雷公藤乙素的合成研
甜叶菊为菊科甜菊属的多年生的草本植物,因叶片中富含有多种甜菊醇糖苷,且是一种低热量的健康糖源,被应用于多种行业。由于市场上的一些甜叶菊品种的状况较杂,种子的质量也有高有低,导致后代遗传的稳定性较差,存在着一定的缺陷,且糖苷总含量较低,因此如何提高甜叶菊的繁殖系数,保持其优良性状,选育甜菊糖苷含量高,性状优良的新品种成为甜叶菊生产的迫切需求。本研究实地调查搜集了甜叶菊的7个品种材料,对其在同一栽培条
尼龙6(PA6)作为一种常见的工程塑料,具有优良的综合性能,广泛应用于交通运输、电子电气等领域。同时,PA6作为有机高分子材料,易燃烧,放热量高,在火焰中的燃烧速度快,特别是燃
以玉米秸秆木质素为填充剂,利用溶液浇铸的方法制备了木质素填充的苯乙烯/丁二烯/苯乙烯嵌段共聚物(SBS)膜材料,借助力学性能测试以及动态力学分析(DMA)、锥形量热分析(CONE)
RDF以三元组的形式描述语义网络中的信息,SPARQL是针对RDF数据模型的查询语言。well-designed SPARQL中的OPT操作是真正的可选操作,可以达到扩展结果集的目的。在来自真实世
信息技术已进入到云计算的时代。而随着云计算技术的发展,作为云依托的数据中心也发生了深刻的变革并产生了新一代的云数据中心。相比传统数据中心,新一代数据中心能满足云计