论文部分内容阅读
语音识别(speech recognition)是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并作出相应的反应。本文课题来源是国家高技术研究发展计划(863计划)资助的项目“蒙古语语音识别技术的研究”。 蒙古语言属阿尔泰语系,与西方语言相似是一种拼音语言。蒙古语发音时由若干音素拼接而成,但在元音和谐、辅音结合方面有自己独特的规律。结合蒙古语特点本文在蒙古语语音声学模型的设计和语言模型的建立方面做了有益的尝试。 本文使用三音子作为基本的识别单元,在词层使用了统计语言模型,用HTK作为训练和识别工具,最终采用识别率较高的HMM模型建立蒙古语连续语音识别系统。 本文共分为七章。第一章为绪论部分,论述了本课题的来源,语音识别技术研究意义,以及开发蒙古语音识别系统的意义。回顾了语音识别技术的发展历史。并简介了本文的研究内容。第二章介绍了语音识别原理、语音识别系统的分类和语音信号处理。第三章介绍了在语音识别系统中使用的隐马尔可夫模型的基本原理。包括基本概念,三个重要问题,以及连续密度隐马尔可夫模型和隐马尔可夫模型的种类。第四章介绍了蒙古语语音识别系统的语料库与语音库的建立。第五章阐述了本文所建立的基于HMM建模的蒙古语连续语音识别系统的框架及其实现以及蒙语语音识别应用技术研究。第六章是在本文建立的连续语音识别系统的基础上,通过实验检验各种模型改进和优化方法对识别率的影响。最后对下一步的工作进行了展望。