论文部分内容阅读
在我国有2000多万的听力语言残障人士,他们无法像健全人一样通过说话和聆听与外界进行沟通,只能通过无声的手语与旁人交流。为了让聋哑人士更好地融入社会,有效地与社会进行交流,手语翻译扮演着至关重要的角色。随着人工智能的不断发展,各种深度学习技术不断涌现,鉴于我国聋哑人数庞大而且关于语音至手语翻译方面的研究较少,如何将人工智能融入到手语翻译中,让聋哑人可以便捷地“听懂”健全人的说话内容这一方向具有广泛及实用的研究和应用价值。本文以基于语音识别的手语翻译算法为研究目标,主要展开了以下工作内容:(1)语音识别是语音到手语的基础工作,其又可分为两大任务:声学模型和语言模型。本文首先对语音识别的声学模型展开研究,对DFCNN(Deep Fully Convolutional Neural Network)框架进行了改进,提出了CNN+CTC(Convolutional Neural Network+Connectionist Temporal Classification)算法,实现了端到端的声学模型。该算法可以有效地将语音数据识别为中文拼音序列,在测试集上的词错误率和句错误率分别为9.20%和24.02%,相较于两种常见声学模型,识别效果有了很大提升。在语言模型方面,本文语言模型算法的目的可以理解为将拼音序列翻译为中文字符序列,因此将Transformer文本翻译框架应用到语言模型当中,通过TensorFlow实现了本文的语言模型算法——基于Transformer编码器。在同一测试集上本文提出的语言模型算法在整体效果上要优于常用的两种语言模型。(2)语音识别算法将语音识别为文字后需要中文分词算法对句子进行分割。本文对比了基于词典的MMSEG中文分词算法以及基于统计序列标注的Bi-LSTM(Bi-directional Long Short-Term Memory)中文分词算法,根据对比实验结果以及手语翻译系统需求选择Bi-LSTM中文分词算法作为本文的中文分词算法。(3)构建了适用于本文语音至手语翻译系统的手语图片库,共有4993条手语图片,可供下载。搭建了手语图片MySQL数据库——my_sign_picture,将手语图片标签、手语图片路径以及图片二进制流保存到表sign_picture中,通过SQL语句可以方便快捷地进行手语图片查询。(4)本文分别搭建了本地和Web两种语音至手语翻译系统,将语音识别算法、中文分词算法以及手语图片查询应用到系统中,可以适应不同需求下的语音至手语的翻译任务,方便聋哑人和外界进行沟通交流。