自动语音识别特征补偿方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:nany_x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究的是自动语音识别中的前端噪声鲁棒性问题。众所周知,语音识别的根本目的就是使机器能够听懂人类的语言。在当前的实验室环境下,很多识别系统已经能够达到很好的性能。但在实际环境中,由于噪声的复杂多变和未知因素的干扰,系统性能往往会急剧下降以至于远远不能达到实用的目的。因此,噪声鲁棒性一直是语音识别研究中一个非常重要的方面。噪声鲁棒性关键问题是解决训练环境和测试环境的失配。实际中这种失配是由语音采集环境的影响(如加性噪声、信道畸变等)以及说话人自身的影响(如说话风格、口音等)引起的。为了使语音识别系统在不同噪声环境下仍能具有较好的性能,就需要采用各种方法来增强识别系统的鲁棒性。   噪声鲁棒性的方法多种多样,但一般来说可分为前端方法和后端方法两大类。前端方法集中于对语音信号本身或者语音特征做处理,达到消除或尽可能抑制噪声影响的效果;后端方法主要集中于增强语音声学模型自身的宽容度和适应能力,使模型能够容忍一定程度的噪声,或者调整模型参数使之跟上噪声环境的变化。本文主要是对噪声鲁棒性的前端方法进行了研究,改善了一些已有的方法,也提出了一些新的方法。   首先,在本文第一章中,对语音识别技术的发展历程做了简单的概述,并重点介绍了一下基于统计建模框架下自动语音识别系统的几个重要组成部分。   由于实际中噪声的多样化,相应的噪声鲁棒性方法也有很多种,每种方法都有它的特点和适用范围。正是针对这种情况,论文在第二章中分别从鲁棒性特征的提取、语音增强、特征补偿/增强、模型补偿四个方面对噪声鲁棒性问题进行了比较全面的介绍和总结。   在本文第三章中,首先介绍了基于显式模型的一阶矢量泰勒级数(VTS)离线特征补偿算法,但是离线算法在实用时并不完美,它最大的缺陷在于其巨大的运算量极大的降低了系统处理的效率。因此,在离线算法的基础上我们提出了高实时性的一阶VTS特征补偿算法,它在保证离线算法性能的同时,大大提升了算法处理的实时性。   虽然在第三章中介绍的高实时性的一阶VTS特征补偿算法取得了不错的效果,但是它和离线算法一样,对噪声均采用的是单高斯建模,而在实际环境中噪声是复杂多样的,这种情况下单高斯可能不能很好的描述噪声参数的分布特性,从而使干净语音估计不准最终影响到识别性能,针对以上问题,在本文第四章中,提出了对噪声多高斯建模的一阶VTS特征补偿算法。实验结果表明,噪声多高斯建模方法还是能够在一定程度上提高系统识别的性能。
其他文献
随着网络规模的扩大和技术的发展,传统互联网已经无法满足新的网络需求,僵化现象日益严重。网络虚拟化技术是解决现有互联网僵化问题的重要技术,其中最关键的问题是虚拟网络
随着移动通信技术的迅速发展,第三代移动通信系统已全面步入商用,TD-SCDMA移动通信系统作为我国第一个拥有自主知识产权的国际电信标准,更是受到了国内外的普遍关注。由于使
随着计算机和语音识别技术的发展,使《汉语普通话水平测试系统》的实现成为可能。《汉语普通水平测试系统》旨在利用人机交互优势,解决现今普通话人工测试的一些缺点。实验证
目前国际上的视频标准主要有ITU-T制定的H.261、H.263、H.264系列,ISO/IEC制定的MPEG-1、MPEG-2、MPEG-4系列。其中,H.264.以其各方面较为优越的性能成为下一阶段视频编解码的
学位
本课题的来源是广州市重点科研项目“可定制GSN应用平台”。该项目是广州科讯技术有限公司和下一代互联网宽带业务应用国家工程实验室为某运营商开发的应用于移动互联网的业
现代工业生产和科学研究对数据采集的要求日益提高。目前比较通用的是在PC或工控机内安装数据采集卡,大多采用ISA或PCI接口标准,虽然具有速度快的优点,但在进行多路数据采集
MIMO系统在给无线通信系统带来增益的同时,也引入了信道间干扰、天线间同步、多个射频链路实现代价昂贵等问题。空间调制(Spatial Modulation,SM)系统作为一种全新的MIMO传输
随着无线通信的高速发展和用户需求的迅猛增长,以用户为中心的多网络多终端并存的泛在接入环境渐露雏形。在此环境下,多个终端相互协同,共同为用户提供个性化的业务保障。显
随着太阳能发电技术的持续发展,全球范围内大容量太阳能并网发电系统将成为必然趋势,我国太阳能发电市场的主流将会是并网发电系统,近年来大容量光伏并网发电技术受到了国际
学位