听觉特性与鲁棒语音识别算法研究

来源 :东南大学 | 被引量 : 4次 | 上传用户:shadowyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术了开创人机交互的新纪元,它被广泛应用于工业、军事、商业、金融、服务、医疗、日常生活等很多领域。在实际应用中,由于环境不匹配,导致识别系统的性能急剧恶化。因而,语音识别的环境鲁棒性成为目前鲁棒语音识别研究的热点和难点。论文先后研究了目前语音识别以及鲁棒语音识别技术、人耳的听觉特性、语音识别中采用的估计准则、噪声环境对语音识别影响的途径,并根据人耳的感知特性、不同频带信号及噪声的功率谱差异,以及噪声对不同频带识别模型影响的不同,先后采用不同的模型框架、估计准则、匹配方法、可信度信息分析,提出多种鲁棒语音识别算法,改进了现有的鲁棒语音识别算法。模型分析与补偿技术是目前噪声环境下鲁棒语音识别研究的重要途径。在大量的理论分析与研究的基础上,论文研究了基于Fletcher-Allen规则的子带框架下的语音识别算法。提出了并行子带HMM最大后验概率自适应非线性类估计算法和非线性最大后验统计匹配鲁棒语音识别算法。在并行子带HMM最大后验概率自适应非线性类估计算法中提出了MAP估计、环境映射以及BP网络联合做非线性映射分类的方法。该算法在信号信息可信度上采用了信噪比分析,算法中还提出了有效反映噪声环境的先验信息估计方法。在非线性最大后验统计匹配算法中,提出了依信噪比进行MAP统计匹配并联合非线性映射进行分类的算法。实验表明,研究获得了不同程度识别性能的改进。基于听觉特性流组合的研究,论文研究了基于噪声污染假定的多带鲁棒语音识别算法。论文研究了多带异步处理模式下的鲁棒语音识别算法。首先,论文提出了多带最大似然鲁棒语音识别算法。该算法提出基于多带模式进行最大似然估计以及线性判别分析或联合信噪比及模型近似度判决分析的鲁棒语音识别方法。论文根据多带分析的特点,还提出了判决多带最大后验多变换算法以及它的简化算法(平均估计和JamesStein估计)。该算法采用多带处理、判别分析、MAP估计,以及信息多变换等,从多种角度提取识别信息获得了非常好的性能。论文还提出了联合信噪比和模型近似度判别分析的思想和具体处理方法,并对提出的几种可靠信息合并准则进行了比较实验。研究表明,鲁棒语音识别应该是基于可信信息抽取的,也就是说不同频带信号的处理模式应该是同步、异步交织进行。为此,论文在前面多带异步处理的基础上,提出了多带同步鲁棒语音识别算法,可以看到同步信息的利用可以大大简化模型。然后综合同步、异步问题的研究,提出了同步-异步语音识别模型,并联合对语音信号随机删除下语音识别性能的分析,研究了时变-频变噪声环境下的基于信噪比可信度判决的迭代识别结构。论文中大量的理论分析和仿真实验比较表明,根据听觉感知中表现的频率特性、信号及
其他文献
本文在关注宗教社会学理论如何给现代社会的宗教现象以合理的解释的同时,对运用理性选择理论解释现代宗教的取向提出商榷。尽管理性选择理论非常强势,号称有相当普遍的解释力
建立反相高效液相色谱法测定龙血竭中剑叶龙血素 C含量的方法 ,以 Phenomenex C18反相键合硅胶色谱柱为固定相 ,水 -乙腈 (33:6 7)为流动相 ,流速 1ml/min,检测波长为 2 11nm
随着我国海洋经济的不断发展,海域使用权也逐渐以一种特殊的商品形式进入到市场经济运行过程中,逐渐形成了海域使用权的一级市场(海域使用权出让市场)和二级市场(海域使用权
马克思主义理论学科经过十年建设,基本实现了《关于调整增设马克思主义理论一级学科及所属二级学科的通知》提出的要求,形成了一些具有本质性的、规律性的经验,如必须坚定不
随着大批90后开始进入企业职场,企业的发展开始处于一个多元化发展的阶段,不仅是企业,政府、学校、社会都在以一种前所未有的速度向前发展。而在这样的发展浪潮下,员工作为企
随着经济的迅速发展,越来越多的国家出现人口老龄化现象。人口老龄化已经逐步发展为全球性的社会问题,给世界各国经济发展带来严重的挑战。本文以我国人口老龄化为研究对象,
二十世纪后半叶,资本主义的发展进入后工业社会,科学技术进步在推动社会经济发展的同时,也改变着人们自身的生活方式和思想方式。哈贝马斯洞察社会的重大改变,同时提出两个命
2009年1月1日起我国全面推行消费型增值税,其主要变化是固定资产可以抵扣进项税,但具体哪些固定资产可以抵扣进项税,是否所有的固定资产都可以抵扣进项税,这在许多人脑海中并