基于SAPI引擎的语音交互方法的研究与实现

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:a5477011266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音交互以语音识别和语音和成为基础,语音识别是将音频信息转换成文本或者其它形式的计算机能够处理的信息的技术。语音合成是将文本文件转换成语音信息。经过国内外多年的研究探索,出现了许多语音识别的方法,其中比较成功的并具代表性的有模式匹配法;统计概率模型的识别方法(其主要代表是隐马尔可夫模型);人工神经网络方法。其中隐马尔可夫模型成为大词汇量连续语音识别的主导方法。 本文从语音识别系统的系统框架出发,重点探讨研究了基于隐马尔可夫模型的语音识别的实现方法。包括语音声学分析(预处理,特征提取等),声学HMM模型的建立和识别过程。重点讨论声学HMM模型的基本建模方法以及模型参数的训练重估方法。 语音是最符合人类自然习惯的一种通信交互方式。随着语音交互技术的发展,它在人机接口和多媒体方面的应用也越来越普遍了。在计算机的运算速度和存储能力迅速提高之后,输入输出的人机界面变得越来越重要,人机接口是当前计算机领域的热门课题之一。而语言是人类用来交流最自然、最有效的手段,也是众多载体中具有最大信息量的信号,具有最高的智能水平。一旦计算机具备了这种语言功能,其智能程度与应用价值将大大增加。因为在这种人机交互中使用的是最自然的语言方式来存储和处理信息,是人机交互的一次革命。总之语音识别技术将给人们带来一个轻松的接口方式,它同其它技术的结合还可以构成专门的应用,比如全自动电话系统,同声会议翻译系统,智能多媒体语言教学系统等。其中具有代表性的是Microsoft公司推出MS-Agent。 本文在对基于隐马尔可夫模型的语音识别技术进行了分析研究之后,应用MS-Agent设计出了语音识别系统与用户进行语言交流的人机接口。把该语音交互分成两个部分,一个是语音输入,即“听”的功能,一个是语音输出,即“说”的功能。实现这两个功能的分别是语音输入识别引擎和MS-Agent的文本朗读Text-To-Speech引擎。这两个引擎使MS-Agent有了语音按钮,使MS-Agent能回答复杂的对话、记录声音和文本。正是MS-Agent能听会说会唱,使MS-Agent在PC机上实现了强大的人机交互的功能。
其他文献
随着科学技术的飞速发展和市场、经济的全球化,市场竞争形式从企业间的竞争逐渐演进为供应链之间的竞争。在这种新环境下,供应链管理(Supply ChainManagement,SCM)作为一种提
  本文在分析了Oracle,Linux等软件的存储结构特征及备份机理之后,归纳出其在数学上的性质,从而为数据备份建立了基于测度概念的理论模型;建立了数据备份恢复的一个基本模型,然
闪存是一种新型半导体存储器,它凭借高密度、高存储速度、低成本和防震等优点,成为了当前主流的固态存储器。然而随着人们对存储密度需求的不断加大,早期的单级闪存逐渐被多
随着计算机网络技术和多媒体技术的迅猛发展,以视频会议,远程教育为代表的具有多播传输特性的多媒体业务不断涌现,并已在校园网和企业网中得到广泛的应用。多媒体多播业务发
学位
汽车牌照自动识别系统是目前交通部门十分重要的科研项目之一,在交通部门的违章检测(电子警察)、高速公路自动收费和智能停车场管理等方面有着广阔的应用前景。从实际场景中切
随着网络技术的飞速发展,网络传输速度不断提高,系统对关键网络设备的处理速度要求不断提高。IPSec VPN作为数据转发的安全平台,很容易成为网络系统的瓶颈。传统的IPSec VPN
数据库中间件是连接信息孤岛的“桥梁”,是所有中间件中应用最广泛、技术最成熟的一种。在集成异构数据库时,数据库中间件内在的优化和转换机制提高了数据访问的执行效率。然
数据挖掘是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中有用的信息和知识的过程。数据挖掘可以从数据中提取人们感兴趣的可用信息和知
履带式微小型机器人能够在室内或野外等各种复杂地域环境中工作,可被广泛运用在反恐、排爆、以及对危险环境的探测中,是陆军和国家安全新式武器装备中重要的便携式机动平台。