论文部分内容阅读
中国有2057万的聋哑人,占中国人口总数的1.67%,由于语言的隔阂使得健听人生活中很难接触到聋哑人。聋哑人和健听人分别生活在各自的圈子里,互相很少有交流,长此以往会使聋哑人更难融入到社会群体中。因此开发一款能够促进双方交流的手语识别系统有很好的学术价值和应用前景。目前,针对特定人的动态手语已经有了大量研究,并且取得了很好的成绩。但是一个手语识别系统要想具有实用性一定可以对非特定人进行手语识别。因此,本文设计了一种面向非特定人群的动态手语识别系统,本文主要研究如下:1.在一个动态手语中可以通过几个关键动作就能完整表达出语义,这几个动作所在的帧称为关键帧。本文提出一种基于特征匹配的关键帧提取算法,通过本算法可以将动态的手语识别变成对静态手势图片的识别,减少了数据量,加快识别速度。本算法需要提前获取手指关节角度和关节点的相对位置特征并存入特征库,在提取关键帧时利用Media Pipe框架获取手部21个关节点坐标并计算手指关节角度和关节点的相对位置特征,如果当前手部特征符合特征库中某个特征时,将当前帧列为关键帧。虽然不同人做同一手语时手的大小、胖瘦、使用习惯不同,但是在做同一个手语时关键帧处的手势基本相同,因此本方法同样适用于非特定人的手语关键帧提取。2.由于目前手势数据集存在着图像模糊和每类样本数量不一致等问题,并且在后续的识别时也会受到环境和手部的大小、肤色等影响,因此本文将自制手势数据集,首先利用摄像头在每类手势拍摄相同数量的图像,预处理方式为Media Pipe框架提取图像中手的21个关节点,并将这些关节点绘制在白底图片上并连线,形成新的手势骨架数据集,该数据集既能看出手势,又能忽略环境和手部的大小、肤色等影响。3.为了验证卷积神经网络能否对本文预处理方式进行有效识别,本文将分别用Res Net-50、Mobile Net V2、Conv Ne Xt网络分别对经过本文预处理的美国手语数据集和未经预处理的美国手语数据集进行训练,证明本文预处理方法可以提高卷积网络的识别准确度。之后采用相同的预处理方式对自建数据集进行处理,选择准确度最高的Conv Ne Xt模型进行训练。4.根据以上的研究方法结合TensorFlow、OpenCV、Py Qt等设计实现了一个动态手语识别系统,该系统可以面向非特定人群。整个系统只需要一台带有摄像头的计算机,不仅使用方便简洁而且对环境没有特殊要求。通过测试该系统对非特定人拥有很好的准确度和稳定性,可以实时的进行手语识别。