论文部分内容阅读
自动语音识别技术(Automated Speech Recognition,简称ASR),它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。随着人们对语音识别认识的深入,人们对语音识别也提出了越来越高的目标。语音识别的最终目的就是想人与人之间的谈话象交流信息一样,实现人-机自由对话,也就是赋予机器以听觉,使及其能听懂人的语言,辩明话音的内容或说话人,将人的语音正确的转化成书面语言或有意义的符号,或者进一步使机器能够按照人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。据预测,语音识别将称为继键盘和鼠标之后,人机交互界面革命中的下一次飞跃。正如IDC的PC分析员RichardAwetchkenbaum所 说:语言是最自然的界面。语音识别具有很大的实际应用价值,其发展、成熟和实用化将推动许多产业迅速的发展,其中包括计算机、办公室自动化、通信、国防、机器人等等。目前可以想象的语音识别主要应用有:语音输入系统,作为一种最自然的文字输入方法,用口述代替键盘向计算机输入文字,这将给办公室自动化和出版界带来革命性的变化;语音控制系统,为人们在手动控制之外又提供了一种更安全、更方便的控制方法,特别是当系统工作在一些特定的环境或一些特殊的用户时;基于对话系统的数据库查询系统,为用户提供了更为自然、友好和便捷的数据库检索和查询,可以广泛运用在银行、交易所、民航等机构;除此以外,语音识别还可以用于口语翻译系统、计算机辅助教学、自动身份确认等很多领域。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致<WP=70>取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。目前,研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现,但其普遍适用性都值得商榷。困难主要表现在:???●语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。???●高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。???●语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。???●我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。???●语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等技术细节要解决。??? 为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络等,所有这些努力都取得了一定成绩。?? 小波分析,作为一种强有力的信号分析工具,近年来被广泛地应用于图象处理和语音处理,它是时间和频率的局部变换,能有效的从信号中提取信息。通过小波变换,在信号的高频域部分,可以取得较好的时间分辨率;在信号的低频域部分,<WP=71>可以取得较好的频率分辨率。这种特性使得小波特别适合于语音信号地处理。本文将小波应用于语音识别系统的预处理中,因为小波的计算特性与人耳的感知过程具有相似性。那么我们可以利用小波多尺度性质,在提取识别特征之前,用小波进行预处理,选取语音信号的有用信息,并且抑制无关信息对识别所产生的干扰。试验表明,把小波滤波器分离出来的各尺度下的剩余信号和原始信号,分别提取带通滤波器族特征进行了试验显示:语音信号的一次小波变换生于信号中携带的信息并没有消失,并且比单纯用原始信号的效果更好,这是因为小波变换的带通滤波器对去用信号进行了衰减和部分滤除,非常类似于人耳的感知过程。可以看出利用小波的带通性质,对于语音识别系统的预处理给出了的小波预处理方法。对于经过小波预处理后提取的特征,对识别更加有效。