语音识别中听觉特征的噪声鲁棒性分析

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户：gra_summer

【摘要】

：

自动语音识别系统在噪声环境下的性能通常会显著下降,这成为制约语音识别技术广泛应用的一个重大障碍。该文在他人的基于Gammatone的听觉特征(GFCC特征)研究基础上,进一步对G

【作者】

：

李银国欧阳希子郑方

【机构】

：

重庆邮电大学,清华大学语音和语言技术中心,

【出处】

：

清华大学学报(自然科学版)

【发表日期】

：

2013年08期

【关键词】

：

语音识别听觉特性倒谱系数说话人噪声数据粉红噪声纯净语音汽车噪声自然噪声模型训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动语音识别系统在噪声环境下的性能通常会显著下降,这成为制约语音识别技术广泛应用的一个重大障碍。该文在他人的基于Gammatone的听觉特征(GFCC特征)研究基础上,进一步对GFCC与基于Mel频率的倒谱系数(MFCC)在不同噪声环境下的性能表现进行分析研究。选择5种人工和自然噪声进行比较试验:白噪声、粉红噪声、褐色噪声、背景说话人噪声、汽车噪声。通过混合不同类型和不同强度的噪声,系统地研究了基于听觉特性的GFCC特征的特性和抗噪能力;特别地,用不同频段的正弦波噪声与纯净语音混合,分析了GFCC和MFCC在各个频带上的噪声鲁棒性。研究发现,与传统的MFCC相比,GFCC对低频噪声具有更高的鲁棒性,而对中高频噪声相对敏感。由于人类发音通常在较低频率(300~700Hz),这一特性使得GFCC在语音识别任务中具有良好的抗噪能力。实验结果表明,GFCC在多种常见噪声环境下都取得了比MFCC更好的识别效果,特别是在低信噪比的情况下表现出更大的优势。 Automatic speech recognition systems typically experience significant performance degradation in noisy environments, a major obstacle to the widespread use of speech recognition technology. Based on the research of others’ Gammatone-based auditory features (GFCC features), this paper further analyzes the performance of GFCC and MFCC based on Mel frequency in different noisy environments. Five kinds of artificial and natural noise were selected for comparison experiments: white noise, pink noise, brown noise, background speaker noise, car noise. By mixing different types and intensities of noise, we systematically studied the characteristics and anti-noise ability of the GFCC features based on the auditory characteristics. In particular, using different frequencies of sinusoidal noise mixed with pure speech, the GFCC and MFCC were analyzed in different frequency bands On the noise robustness. The study found that, compared with the traditional MFCC, GFCC has higher robustness to low frequency noise and is relatively sensitive to mid-high frequency noise. Due to the fact that human speech is usually at lower frequencies (300-700 Hz), this feature allows GFCC to have good noise immunity in speech recognition tasks. The experimental results show that GFCC has better recognition performance than MFCC in many common noise environments, especially in the case of low signal-to-noise ratio.

其他文献

你没有等我

Onen　　在我们常去的那家奶茶店，我断断续续地喝完两杯绿咖，才见到你从马路的那边晃晃悠悠地走过来。n　　深蓝色短袖衫，白色超短裙，人字拖。你的长发披散着，隔得有点远，从店面的

期刊

短袖衫玻璃窗奶茶蓝色耳机断续店面白色

关键事件

1“听说，你有一种新型的杀人手法，能毫无痕迹地除掉一个人。”他坐在阔大的皮椅上，不动声色地打量着对面的黑衣人。“没错，”黑衣人回答，他的声音低沉，有种令人信服的魔力，“用催眠

期刊

手法声音杀人迹地催眠

慢走，不送

生命就好像塌陷在那一片满目疮痍的时光里,想要挣扎着醒来,可每次都是一场分崩离析的疼痛。一、其实自己不懂这个男人我再回到L市已经是四年后。四年后的春天,L市的天空依旧

期刊

阳光天空男人春天城市

萧历

记不起这是第几次从梦中醒来，一样的梦。萧历抱着我说，跟我走。在那个熟悉的小n　　旅店里，墙角攀爬着几道令人犯恶心的青苔。我说算了吧，你走吧。他把我压住，要了我最后一次，在骂

期刊

青苔人犯墙角攀爬旅店会见恶心

川崎病误诊16例分析

我院从 1996年起收治的川崎病 (Kawasaki disease,KD)患儿 6 8例 ,其中早期 (10 d内 )误诊 16例 ,误诊率 2 3.5 % ,分析如下。1　临床资料1.1　一般资料　本组男 9例 ,女 7例

期刊

粘膜皮肤淋巴结综合征/诊断误诊

别爱江音

01　　正是下班高峰期，整条路都被堵得水泄不通。陈启明刚下火车，捏着喝了一半的矿泉水坐在出租车里。司机拧开广播，音乐节目中传来王菲悠长又哀伤的声线。　　那是陈启明第一次

期刊

陈启明另一个世界矿泉水高峰期出租车音乐司机女生描述马丁镜片节目火车画风广播缝隙车辆

青梅

楔子n　　这是很久很久以前，在还叫做蜀中的地方，发生的事。n　　这个城还不算大，闲闲的，阳光也很软，在城东的地方，有一条普通的巷子，从巷子口立着的石头上的字可以知道，它叫做清水。

期刊

阳光楔子石头清水

青门引之游园惊梦

即使再如何陡生波澜,世事难料,其实结局从一开始就被写好,无人可改。楔浮在梦境中的,袅袅娜娜的少女的影。那是一个并不绮丽的,怀着几许轻浮之色的春梦。近些时日,秦生总有这

期刊

姿态庭园深秋少女春梦垂柳

不典型肾结核误诊10例分析

我们自 2 0 0 1年以来收治不典型肾结核 10例 ,均误诊 ,分析如下。1　临床资料本组男 6例 ,女 4例 ,年龄 31～ 72岁 ,平均年龄 5 2岁。典型病例例 1　男 ,5 8岁。右侧腰腹部胀

期刊

结核肾/诊断误诊

青舆（上）

1.镜听n　　枯井隐匿于荒院，而她就坐在井底。手撑着一颗痉挛的胃，流沙掩埋心脏，时间吊死在树上，那是青舆所熟悉的自己，无望而深刻。n　　许多年没有人来过了。她已经忘了的那些带

期刊

掩埋岩壁心脏声音流沙枯井痉挛井底

语音识别中听觉特征的噪声鲁棒性分析

与本文相关的学术论文