论文部分内容阅读
音素是根据语音的自然属性划分出来的最小语音单位,而音素识别技术是一种从语音音频中识别出其音素序列的模式识别技术。音素识别已经历经了几十年的发展,从传统的隐马尔可夫模型到现在的基于注意力机制的编解码模型,音素识别技术日趋成熟,识别性能已经提升到了一个很高的水平。需要进一步明确的是,音素识别技术可以作为一项支撑技术,其合理应用可以较为有效地提升其它系统的性能。本论文重点进行了两方面的研究,其一是端到端音素识别技术的改进和优化,其二是音素识别技术在按例查询型关键词检测系统中的应用。针对这两个研究方向,本论文所完成的主要工作可以归纳为如下三个方面:1.本论文对基于编解码模型的端到端音素识别技术进行了研究和优化。论文中对融入注意力机制的编解码模型进行了系统实现,同时创新性地使用了 Word2vec系统对原有系统中Embedding机制进行了改进。此外为了弥补训练数据不足的问题,论文中设计了一种基于逆映射思想的数据增补方法;同时,在系统开发过程中引入了纠正训练步骤,能够有效提升音素识别系统。2.论文中创新性地使用音素识别技术来生成关键词检测系统的特征,并依托图像识别技术完成了按例查询型关键词检测系统的开发。本论文利用上述音素识别系统来提取音素向量特征,之后利用相关性计算将音素向量特征转化为特征图像,进而使用基于深度学习的图像识别技术完成特征图像的处理,最终完成了关键词的按例查询。本论文经过系统性能实验,证明了该系统具有可行性。为了评估所开发系统的性能,本论文还设计了一个使用音素后验概率谱来生成特征图像的对比方案。该对比系统采取了多层感知机的音素识别技术来生成关键词检测所需要的音素后验概率谱,然后结合图像识别技术来进行关键词检测。本文经过系统性能实验,能够达到预期的实验效果,并通过两种系统的性能对比,证明了基于音素向量的关键词检测系统性能要优于基于后验概率谱的系统。3.本论文所完成的音素识别系统的基础上,利用模板匹配思想进一步设计和实现了一个按例查询型关键词检测系统。该系统借鉴了 D-vector说话人识别算法中的思想,依托上述音素识别系统生成关键词检测系统的摘要特征,然后利用基于滑动窗的模板匹配方法,在待测数据中确定关键词的存在并能够定位其所在位置。经过系统性能实验,该系统能够达到预期的性能效果。同时本文把该模板匹配系统和前两个基于图像识别技术所搭建的关键词检测系统做了系统性能对比,并分析了系统之间的差异。