嵌入式连续语音识别算法研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:cherrydarling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动设备和语音识别技术的发展,嵌入式平台下连续语音识别已成为当前语音识别应用研究的热点。在现今大词汇量连续语音识别距离实用化还存在不可忽视的沟壑下,某些特定领域内中等词汇的应用则可以在小型设备中发挥大作用,其更加贴近自然语音的说话方式和便捷的人机交互方式将给人们生活带来更大的便利。在这一背景下,本文在大词汇量连续语音识别系统的基础上搭建的中等词表语音识别系统,可应用于电话信息查询,PDA,GPS等移动设备语音交互等有限资源平台下,并可根据语法限制解析出关键字。在保证一定识别率情况下,系统以内存消耗和计算性能为主要目的。首先,以大词汇量连续语音识别系统构建的基线系统,采用单因子的HMM模型,语言模型采用有限状态语法的确定有限状态自动机(DFA)来进行语法限制,词典树为前缀共享的发音树结合有限状态网络组合为搜索状态空间,在这个空间中搜索策略为广度优先的帧同步维特比束搜索,以状态层存活数目为剪枝目标。在一遍搜索的结果上进行第二遍深度优先异步堆栈解码算法进行二次搜索,在第二遍以词为单位的扩展过程中,加入了以后验概率为置信评分的简单重估,该计算非常有效的减少了词的删除错误,降低了误警率。然后对整个系统性能进行测验和评估,结合测试集,知识资源和系统参数进行了多项实验。在106~*4句语音的测试集中,最好可获得了96.65%的词准确率。并分析了系统的性能影响,内存占用因素以及计算复杂度。算法复杂度有网络扩展和概率计算两大部分,当状态分布越简单,网络越复杂时,输出概率计算所占比重越小。并确定系统的嵌入式移植方案。本文中采用了TI MS320C6173浮点开发板,其主频225MHz,SDRAM 16MB,FLASH为2MB,在500词以内的任务下,根据以上的内存占用分析和计算复杂度,此平台是可以承受得。移植方案出于减少计算消耗考虑,将系统分为离线初始化和在线识别部分,离线部分包括调入资源模型以及构造静态搜索网络,在线部分完成特征提取和搜索,利用中间文件的形式作为两部分的桥梁,一定程度上减少了搜索空间的构造计算,并且实验证明对识别率没有影响。最后采用了几种快速高斯分量计算算法对混合度捆绑的HMM模型在输出概率计算时进行了高斯选择,根据前一帧计算所的结果对后一帧的处理进行指导选择,其中直接利用前一帧的计算结果设定标量阈值进行快速选择的算法取得了很好的效果,在同等混合度捆绑的模型(TM)中,仅仅下降5%左右的词准确率而减少了50%的输出概率计算。
其他文献
人脸作为一种非常具有辨识度的生物特征,其在人机交互、智能监控以及视频会议等方面具有很大的前景空间,吸引着众多学者投入研究。但人脸是一种十分复杂的非刚性目标,其检测
现实中大部分系统都具有不确定性,因此对不确定性系统的分析与设计一直是研究的热点。定量反馈理论(QFT)与预测控制是两种已经得到广泛应用的对不确定性系统的控制方法。其中
混沌是非线性确定性系统所产生的类似随机的运动,研究表明混沌序列具有遍历性、非周期性、随机性等特性。由于混沌序列的这些特性,我们可以将混沌序列引入到优化领域中。自李兵
当配电网发生故障时要求能够根据配电网的实际拓扑结构,快速地定位故障并且通过遥控开关隔离与故障点相连的用户,然后通过转换联络开关和分段开关的状态,寻找一种满足约束条件的
本论文主要研究基于射频技术(RF)的无线数据采集系统,采用了模块化的设计思想,按照系统功能划分为四大模块,即数据采集模块、无线通信模块、通用串行总线模块以及计算机显示处理
“去库存”现在是中国房地产的重要任务,二三四线城市更是如此,各方都在想办法。比如任志强还这样说:“政府也许会出台各种有助于消化库存的政策。但并非所有的库存都能靠政策被市场消化。当房子盖在了不合适的地方,(包括住宅、写字楼与商业)也许只能炸掉,推倒重来。”  机缘巧合的是,这两年,我正好在中部的三线城市做房地产相关工作,对于三线城市房地产库存营销状况还是了解的。大量的库存当然不可能像任志强所说的那样
随着科技的飞速发展,被控对象日益复杂化、大型化,传统的智能控制理论在控制系统的设计以及控制效果上都存在不足,而起源于分布式人工智能(DAI)的多智能体技术,为大规模复杂