论文部分内容阅读
随着智能设备的发展,手势作为一种人机交互手段,具有丰富、灵活、直观的特点,以手势作为人机交互的方式更符合人们的生活习惯。手势识别对于帮助聋哑群体融入正常的社会生活、机器控制、安全驾驶等方面都有着重要意义。其中,基于数据手套、Kinect等外部设备的手势识别技术已经相对成熟,并被广泛应用,但基于计算机视觉的手势识别技术依然不够成熟。传统图像处理方法通常为了避免环境影响,而选择在简单或单一背景下进行算法的研究设计,导致算法的实际应用价值不高。在复杂背景下,本文以提高手势检测速度和检测精度为目的,采用了不同的方法进行手势识别的研究与改进,并通过实验对比,分析各种算法在手势识别中存在的问题及产生的影响,最终改进的YOLOv3深度学习模型可以在保证手势检测精度的前提下,达到对手势的实时检测,具有良好的应用价值。本文主要采用了 3种方法对手势识别进行了研究:(1)针对传统图像处理算法对于有手臂、人脸等类肤色区域干扰无法进行有效分割,传统滑窗检测法生成大量的窗口图片而影响算法处理速度的问题,提出采用肤色分割提取类肤色区域,对类肤色区域按照自定义的图像缩放规则构建图像金字塔结构,并结合滑窗操作,生成窗口图片,对每个窗口图片进行目标识别和分类识别,这种改进使算法的处理速度达到了 25fps/s,使用范围扩大,手势识别精度达到了 61.2%,检测精度不高。(2)采用Faster RCNN深度网络模型进行手势识别的研究,针对Faster RCNN对远距离小目标手势的识别率不高的问题,运用Faster RCNN与FPN算法结合,提高小目标的检测精度,该模型虽然检测精度较高达到了 97.6%,但检测速度很慢(2fPs/s),无法达到实时检测。(3)采用YOLOv3深度网络模型进行手势识别的研究,针对YOLOv3存在对于近距离手势目标框定位不准确,当IOU增大时,性能下降的问题。提出重新对实验数据进行k-means聚类,生成适应本文数据集的先验框大小,去除顶层特征图对目标的预测,以提高目标手势的定位精度。最终该模型检测精度达到了 98.6%,检测速度为22fps/s,可以达到实时检测的效果。