论文部分内容阅读
随着语音识别技术的日渐成熟,在各个领域的应用层出不穷。对于服务机器人领域,语音技术主要用于服务机器人上的口语对话系统,本文针对可佳机器人的具体应用场景,探究了应用于服务机器人口语对话系统设计与实现的过程。此外,本文还研究了与语音识别中语言模型相关的技术-联合无监督词聚类的递归神经网络语言模型。本文对面向服务机器人口语对话系统的研究主要涉及两个方面:一是语音识别,二是对话管理。在语音识别方面,先较为详细的介绍了语音识别相关基本原理,然后介绍面向可佳机器人应用的语料收集,随后对模块所需声学模型训练的完整步骤做了介绍,并对几种声学模型在本文提供的训练集和测试集下的性能做了实验和分析,实验表明,使用上下文相关的三音素模型具有最好的识别效果,最佳词识别率达到98.39%,对应的句子识别率为90.83%。针对机器人上机载计算设备计算能力有限和机器人在运行过程中能提供自身状态信息的特点,本文设计了可以压缩解码时搜索空间的动态改变语言模型机制,并对最后完成的语音识别模块做了实验和分析,实验中基于动态语言模型机制的语音识别模块最佳句子识别率为87.95%,比不采用动态语言模型机制的语音识别模块高出12.05%。在对话管理方面,针对服务机器人的特点,本文采用层叠状态机的设计方法并使用python语言实现了这一对话管理框架,接着介绍了我们对话管理框架中的多模态信息加入和验证与确认机制,并最后介绍了本文设计的对话管理在可佳机器人上具体任务cocktailparty上的应用。另外,本文还深入研究了无监督词聚类方法在递归神经网络语言模型上的应用。基于递归神经网络的语言模型被证明有领先的效果,研究表明,在递归神经网络语言模型的输入层加入词性标注信息,可以显著提高模型的效果。但使用词性标注需要手工标注的数据训练,耗费大量的人力物力,并且额外的标注器增加了模型的复杂性。为解决上述问题,本文尝试将布朗词聚类的结果代替词性标注信息加入到递归神经网络语言模型输入层。实验显示,在Penn Treebank语料上,加入布朗词类信息的递归神经网络语言模型相比原递归神经网络语言模型困惑度下降8-9%。