论文部分内容阅读
语音交互以语音识别和语音和成为基础,语音识别是将音频信息转换成文本或者其它形式的计算机能够处理的信息的技术。语音合成是将文本文件转换成语音信息。经过国内外多年的研究探索,出现了许多语音识别的方法,其中比较成功的并具代表性的有模式匹配法;统计概率模型的识别方法(其主要代表是隐马尔可夫模型);人工神经网络方法。其中隐马尔可夫模型成为大词汇量连续语音识别的主导方法。 本文从语音识别系统的系统框架出发,重点探讨研究了基于隐马尔可夫模型的语音识别的实现方法。包括语音声学分析(预处理,特征提取等),声学HMM模型的建立和识别过程。重点讨论声学HMM模型的基本建模方法以及模型参数的训练重估方法。 语音是最符合人类自然习惯的一种通信交互方式。随着语音交互技术的发展,它在人机接口和多媒体方面的应用也越来越普遍了。在计算机的运算速度和存储能力迅速提高之后,输入输出的人机界面变得越来越重要,人机接口是当前计算机领域的热门课题之一。而语言是人类用来交流最自然、最有效的手段,也是众多载体中具有最大信息量的信号,具有最高的智能水平。一旦计算机具备了这种语言功能,其智能程度与应用价值将大大增加。因为在这种人机交互中使用的是最自然的语言方式来存储和处理信息,是人机交互的一次革命。总之语音识别技术将给人们带来一个轻松的接口方式,它同其它技术的结合还可以构成专门的应用,比如全自动电话系统,同声会议翻译系统,智能多媒体语言教学系统等。其中具有代表性的是Microsoft公司推出MS-Agent。 本文在对基于隐马尔可夫模型的语音识别技术进行了分析研究之后,应用MS-Agent设计出了语音识别系统与用户进行语言交流的人机接口。把该语音交互分成两个部分,一个是语音输入,即“听”的功能,一个是语音输出,即“说”的功能。实现这两个功能的分别是语音输入识别引擎和MS-Agent的文本朗读Text-To-Speech引擎。这两个引擎使MS-Agent有了语音按钮,使MS-Agent能回答复杂的对话、记录声音和文本。正是MS-Agent能听会说会唱,使MS-Agent在PC机上实现了强大的人机交互的功能。