基于语音识别的手语翻译算法研究与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:ZS54902
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在我国有2000多万的听力语言残障人士,他们无法像健全人一样通过说话和聆听与外界进行沟通,只能通过无声的手语与旁人交流。为了让聋哑人士更好地融入社会,有效地与社会进行交流,手语翻译扮演着至关重要的角色。随着人工智能的不断发展,各种深度学习技术不断涌现,鉴于我国聋哑人数庞大而且关于语音至手语翻译方面的研究较少,如何将人工智能融入到手语翻译中,让聋哑人可以便捷地“听懂”健全人的说话内容这一方向具有广泛及实用的研究和应用价值。本文以基于语音识别的手语翻译算法为研究目标,主要展开了以下工作内容:(1)语音识别是语音到手语的基础工作,其又可分为两大任务:声学模型和语言模型。本文首先对语音识别的声学模型展开研究,对DFCNN(Deep Fully Convolutional Neural Network)框架进行了改进,提出了CNN+CTC(Convolutional Neural Network+Connectionist Temporal Classification)算法,实现了端到端的声学模型。该算法可以有效地将语音数据识别为中文拼音序列,在测试集上的词错误率和句错误率分别为9.20%和24.02%,相较于两种常见声学模型,识别效果有了很大提升。在语言模型方面,本文语言模型算法的目的可以理解为将拼音序列翻译为中文字符序列,因此将Transformer文本翻译框架应用到语言模型当中,通过TensorFlow实现了本文的语言模型算法——基于Transformer编码器。在同一测试集上本文提出的语言模型算法在整体效果上要优于常用的两种语言模型。(2)语音识别算法将语音识别为文字后需要中文分词算法对句子进行分割。本文对比了基于词典的MMSEG中文分词算法以及基于统计序列标注的Bi-LSTM(Bi-directional Long Short-Term Memory)中文分词算法,根据对比实验结果以及手语翻译系统需求选择Bi-LSTM中文分词算法作为本文的中文分词算法。(3)构建了适用于本文语音至手语翻译系统的手语图片库,共有4993条手语图片,可供下载。搭建了手语图片MySQL数据库——my_sign_picture,将手语图片标签、手语图片路径以及图片二进制流保存到表sign_picture中,通过SQL语句可以方便快捷地进行手语图片查询。(4)本文分别搭建了本地和Web两种语音至手语翻译系统,将语音识别算法、中文分词算法以及手语图片查询应用到系统中,可以适应不同需求下的语音至手语的翻译任务,方便聋哑人和外界进行沟通交流。
其他文献
桂林站于2003年6月研制出新型的防蝇防尘站台食品销售车,经使用已达到防蝇防尘的预期效果.该食品销售车的基本构造是在销售食品时是全敞开的,所有出售食品都能目视到.而停止
行政诉讼合法性审查是行政诉讼法学理论研究的核心组成部分,同时也是《中华人民共和国行政诉讼法》的基本原则。该法颁布30余年来,行政诉讼合法性审查作为人民法院审理案件的
对提高档案管理人员的素质、加快档案信息自动化建设的各项工作作简单介绍,并提出个人的一些体会及建议。
2011年,中国皮影被列入人类非物质文化遗产名录,唐山皮影作为中国皮影的典型代表,在中国地方戏曲发展中发挥着重要作用。伴随着新兴媒体的出现,唐山皮影面临着表演形式单一、
互联网的兴起助推了科技型、创新型企业如雨后春笋般不断涌现,这类企业在初创阶段面临的资金链紧张困难给风险投资行业带来了发展机遇。但是我国风险投资行业起步较晚,从业人
文化“走出去”战略是我国近年来大力实施的文化对外发展战略,助力国家发展的长久之计。值得注意的是中国文化在国际上并不是主流文化,在世界文化市场上,西方文化占据了 77%,