论文部分内容阅读
听觉作为人类一种重要的能力,是与人交流的重要媒介,但很多人因为先天或者后天的缺陷无法通过听觉来与人交流。唇语作为一种通过视觉判断说话内容的技术可以帮助他们实现快速沟通。除此之外,唇语的识别对于嘈杂环境语音识别、安防系统认证和公共安全分析中都有重要应用。这些因素决定了唇语识别研究的重要价值。如今,深度学习的发展,推动着唇语识别的快速发展。本文着重对基于深度学习的唇语识别技术进行了研究。由于深度学习本质是由数据驱动的算法,越来越多成功的深度学习例子都说明了数据集的质量决定着深度学习算法模型训练结果的好坏,对于唇语的识别也不例外。本文从唇语数据集出发,针对唇语识别数据集构建时的难点,设计了一种基于金字塔LK(Lucas-Kanade)光流法的唇语自动标注系统。该系统首先利用语音处理技术和人脸唇部区域定位技术对视频进行预处理,再利用光流法计算出相邻帧之间嘴唇的运动信息来精确地标注出嘴唇变化所对应的时间,完成标注任务。相比于单单利用语音识别标注的方法,本系统标注出的唇语样本更为精确,数据集质量更高。为实现中文的唇语识别,本文采用该系统建立了一种中文常用语唇语数据集CPLDS(Chinese Phrase Lip Data Set)。在唇语识别的深度学习模型构建中,本文从唇动特性入手,由于唇语识别不仅要识别出唇部区域图片空间的信息,还需要关注图片序列随时间变化的关系。本文利用改进的VGG(Visual Geometry Group)卷积神经网络对嘴唇图片进行空间特征的提取,再利用GRU(Gated Recurrent Unit)循环神经网络提取唇动的时序特征,最后将两者结合共同构建了唇语识别深度学习模型。在损失函数的设计上采用CTC(Connectionist Temporal Classification)作为时序输出损失。在深度神经网络模型的训练过程中,利用迁移学习,提升模型的泛化能力,同时利用批量归一化BN(Batch Normalization)和丢弃法(Dropout)来防止模型出现过拟合的问题。在模型的表现上,在语料大小为均为20的中文CPLDS数据集和英文MIRACL-VC1数据集上,本文提出的深度学习唇语识别模型达到了97.3%和96.6%识别率。在小语料场景下,略优于目前唇语识别网络模型的实验结果。