基于深度学习的唇语识别技术研究

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 3次 | 上传用户:andrew2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
听觉作为人类一种重要的能力,是与人交流的重要媒介,但很多人因为先天或者后天的缺陷无法通过听觉来与人交流。唇语作为一种通过视觉判断说话内容的技术可以帮助他们实现快速沟通。除此之外,唇语的识别对于嘈杂环境语音识别、安防系统认证和公共安全分析中都有重要应用。这些因素决定了唇语识别研究的重要价值。如今,深度学习的发展,推动着唇语识别的快速发展。本文着重对基于深度学习的唇语识别技术进行了研究。由于深度学习本质是由数据驱动的算法,越来越多成功的深度学习例子都说明了数据集的质量决定着深度学习算法模型训练结果的好坏,对于唇语的识别也不例外。本文从唇语数据集出发,针对唇语识别数据集构建时的难点,设计了一种基于金字塔LK(Lucas-Kanade)光流法的唇语自动标注系统。该系统首先利用语音处理技术和人脸唇部区域定位技术对视频进行预处理,再利用光流法计算出相邻帧之间嘴唇的运动信息来精确地标注出嘴唇变化所对应的时间,完成标注任务。相比于单单利用语音识别标注的方法,本系统标注出的唇语样本更为精确,数据集质量更高。为实现中文的唇语识别,本文采用该系统建立了一种中文常用语唇语数据集CPLDS(Chinese Phrase Lip Data Set)。在唇语识别的深度学习模型构建中,本文从唇动特性入手,由于唇语识别不仅要识别出唇部区域图片空间的信息,还需要关注图片序列随时间变化的关系。本文利用改进的VGG(Visual Geometry Group)卷积神经网络对嘴唇图片进行空间特征的提取,再利用GRU(Gated Recurrent Unit)循环神经网络提取唇动的时序特征,最后将两者结合共同构建了唇语识别深度学习模型。在损失函数的设计上采用CTC(Connectionist Temporal Classification)作为时序输出损失。在深度神经网络模型的训练过程中,利用迁移学习,提升模型的泛化能力,同时利用批量归一化BN(Batch Normalization)和丢弃法(Dropout)来防止模型出现过拟合的问题。在模型的表现上,在语料大小为均为20的中文CPLDS数据集和英文MIRACL-VC1数据集上,本文提出的深度学习唇语识别模型达到了97.3%和96.6%识别率。在小语料场景下,略优于目前唇语识别网络模型的实验结果。
其他文献
作者于2006-2007年3月至7月,对吉林省左家自然保护区次生林中红隼的取食地选择和取食行为进行了研究。通过悬挂人工巢箱对红隼进行招引,采用全日观察法和瞬时扫描法对红隼日
东北黑土是我国宝贵的自然资源,是重要的商品粮生产基地。由于种植模式及其管理方式的不科学,黑土耕层结构变差,养分有效性降低,生产力下降。土壤团聚体特征是土壤结构稳定性
目的:1.分析浙江省人感染H7N9禽流感病例人群分布情况,掌握疾病发生的高危人群,获得H7N9病例的感染特征。2.根据浙江省流感样病例(ILI)和住院严重急性呼吸道感染病例(SARI)的
设计了大气激光通信信道测量系统,利用此系统在不同气象条件下进行了近地视距实验测量并采集了不同天气条件下的实验数据,详细分析讨论了所得实验数据并进行了误差分析.同时实验
很多朋友都会在iPad设备上浏览邮件,但如果邮件有附件,那么查看附件的内容町能并不方便。不过,只要你使用的足网易系列的邮箱,无需安装任何应用,在iPad上就可以直接预览附件的内容
灵芝孢子(GLS)是灵芝的种子,具有天然形成的空腔结构,由于其无毒副作用和良好的生物相容性,在药物缓释方面具有潜在的应用价值。本文将GLS作为载体,研究其在药物缓释方面的应
为了协调水氮管理,发挥水氮协同效应,实现产量与水氮效应协同提高,本文分别以氮高效常规稻(中早39、五山丝苗)和杂交稻(陵两优104、五优308)为材料,在大田采用裂区设计,以水
[目的]通过分析比较昆明医科大学第一附属医院老年病科中慢性阻塞性肺疾病(Chronic obstructive pulmonary disease,COPD)合并颈动脉粥样硬化患者和无慢性阻塞性肺疾病病史的
介绍低温核能供热堆联合有机朗肯循环的热电联供系统(以下简称热电联供系统)的流程、热力学循环。结合某热电联供系统实例,对各工况点热力学参数的确定方法进行探讨,计算供热
高频不能只是没有供电环境作为支撑的“傻快”,那样只能让显卡短命。NVIDIA的公版设计虽然性能平庸,但用料规范却是相当高的。而要想把公版远远甩在身后,那么就要做到“超公版”