基于深度学习的唇语识别算法研究

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:vin0726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别技术是从语音识别中发展出来的一个分支。在过去的几十年中,人们越来越多地开始使用视觉提示来帮助解码语音,模仿人类进行唇读的能力,从而开发了自动唇读系统。与音频或视听系统相比,自动唇读系统的性能仍然落后。唇语识别技术的主要挑战之一在于视觉上的歧义,由于同音字而使单词识别难度增加,同音字产生相同或相似的嘴唇运动。此外头部位置的变化、照明条件、时空分辨率、时空信息的有效编码等因素也极大的影响了唇读识别的鲁棒性。本文提出了一种中文唇语识别方法,先对图像中唇部信息进行拼音识别,然后采用自注意力机制对拼音序列进行汉字识别。具体的内容如下:(1)提出一种基于双支网络与全局上下文关联的时空卷积的唇部图像转拼音识别算法。对唇部运动轨迹相同或相似的词语使用Res Net-34网络对输入的唇部图像序列进行特征提取,对于唇部运动轨迹差别较大的词语使用Dense3DNet-56网络进行特征提取。采用一个mask结构对两个模块的信息进行融合。提出了一个全局上下文关联的时空卷积(NTCN),用来对提取的唇部运动特征图进行识别,对原有TCN内部的结构进行改进,可以更好的关联上下文信息。(2)提出一种基于自注意力机制的唇部拼音转文本识别算法。不再使用之前传统的序列识别模型必须结合卷积神经网络或者循环神经网络的固有模式,使用的尺度点积注意力机制算子在有效减少模型计算量的同时提高了网络的并行效率。采用的多头尺度点积自注意力机制利用模型获取的不同表示子空间的信息并进行联合,使得模型可以更好的关注上下文的信息,根据拼音判断汉语的句法和语义结构。
其他文献
学位
学位
在高速飞行过程中,飞行器与大气层间相互作用,会产生气动光学效应,导致图像产生热辐射噪声、模糊等畸变,图像的信噪比降低,这对飞行器的导航制导、目标探测等任务造成了大量干扰。故气动光学效应的有效解决对飞行器的探测导航有着重要的作用。气动光学效应的解决途径不尽相同,该论文主要从图像处理方面研究气动光学效应的校正复原。现有的多数校正算法,通过引入气动光学效应的相关先验知识,在基本校正模型的基础上增加正则化
学位
学位
随着依法治国和全民普法教育的深入,人民群众法律意识的不断提高,社会各界对于行政机关的执法水平和执法要求越来越高。近年来“民告官”的行
会议
随着人工智能与大数据的概念及其相关技术的不断完善,给各行各业的发展带来了一些全新的模式,使得各行各业变得越来越智能化。教育作为一个传统的领域,也是国家发展中的重中之重。在教育领域中,学生的学习信息数据、老师的教学信息数据和课程的更新迭代都为人工智能和大数据技术的实施提供了重要的基础,相反,人工智能和大数据技术也为教育行业带来了新的发展契机。英语作为世界上主流的使用语言是各国学习的主要语言,随着大数
雷诺数Re=214~10 703时,通过数值模拟方法对布置有冲孔和无孔的两种矩形小翼涡流发生器的矩形通道进行了传热和流阻特性的研究。计算结果表明:在低雷诺数下,冲孔矩形小翼涡流发生器的传热因子j值与无孔矩形小翼涡流发生器相差不大,而在高雷诺数下,冲孔涡流发生器的传热因子j值略低于无孔涡流发生器,大约低1.03%~3.05%。在相同的雷诺数下,无孔矩形小翼涡流发生器的阻力因子f大于冲孔涡流发生器,而
目的:探讨猪脱细胞真皮基质(pADM)对全层皮肤损伤后不同时间小鼠创面基质细胞衍生因子-1(SDF-1)及蛋白激酶B(AKT)表达的影响,为研究创面全层皮肤损伤愈合机制提供依据。方法:18只C57BL/6小鼠以脊柱为中线,在其左右两侧各制作一个直径为6mm的全层皮肤缺损创面,左侧以纱布覆盖(对照组),右侧以微粒状pADM覆盖(pADM组),分别于伤后第1、2、3、4、6、8周取创缘处组织。免疫组化
美国远程反舰导弹LRASM为新一代远程反舰导弹,具有远射程、低可探测、智能制导等优势,代表了反舰导弹未来发展趋势。介绍了LRASM导弹的研制背景,分析总结了导弹关键技术特征,并针对项目研发所体现的新战略、新思想、新战法、新技术进行了剖析和思考,可为我国武器装备发展提供借鉴和参考。