论文部分内容阅读
随着虚拟现实技术的发展,操作自由、交互智能友好成为下一代人机交互技术发展的趋势,它以人为本,把计算机作为多通道、多模式、多媒介的感知识别器,通过识别人的语音和动作包括人脸、手势、体势、表情等实现互动交流,比传统的鼠标键盘交互方式更自然便捷,比当今的触摸屏技术更自由灵活,硬件代价更低,交互效率更高,因此针对这种自然和谐的交互需求,研究语音、人脸、手势识别是一个重要课题。本文针对原世博广州馆“360度虚拟互动体验区”项目的动作感应解决方案存在的适应性和精确度较低等问题,深入研究手势的识别与交互,在未加入红外灯,只使用摄像头的情况下,扩展原动作感应方案的功能及应用,为研究手势动作与三维场景之间的互动打下基础。
本文深入分析了手势识别技术的国内外相关研究现状,综述了基本概念,基础理论、主要技术和关键问题,在此基础上,深入研究和设计自然手势识别方法,主要有五个部分:一是图像的预处理,包括滤波、边缘锐化、二值化、形态学处理;二是建立肤色模型,包括对比YCbCr和HSV两种颜色空间,并分别进行模型的初始化;三是手势运动跟踪,在研究传统运动跟踪算法的基础上,结合Kalman滤波改进Camshift算法;四是手势的识别分类,采用可实时自定义的二维模板进行基于不变矩的轮廓匹配;五是手势特征点提取,包括计算手势面积、周长、运动方向和手指判定。其中重点设计与实现的算法包括:自适应肤色建模与分割算法、结合Kalman滤波改进的Camshift算法、不变矩轮廓匹配算法、指尖等特征提取算法。
为了验证本文提出的各个算法,本文基于OpenCV库设计了一个自然手势识别交互系统,系统可识别预定义的十种静态手势,及用户通过模板定义功能自定义的手势,并提取手势特征点,包括计算手势面积、周长、运动方向和手指判定;系统设计了多个交互应用,包括手势控制鼠标、声音反馈、手指画图和通过手势浏览图片,实现了用户动态手势与计算机应用程序的交互。通过测试显示,系统的识别率、识别速度等指标达到预期,满足设计目标。
本文研究的特色体现在两个方面:
(1)为提高肤色模型的自适应性,提出一种兼容YCbCr和HSV两种颜色空间的肤色建模方法。该方法可获取系统预定义或者用户实时拍摄的肤色样本,根据其在各颜色空间中的高斯模型生成的肤色概率值找到初值,并通过一个自适应阈值的生成机制找到当前最佳肤色阈值,最后结合多种图像处理算法进行肤色分割。实验表明,该方法提高了环境变化下手势识别的准确性。
(2)针对现有跟踪方法在环境干扰下不能准确跟踪目标的问题,提出一种结合Kalman滤波改进的Camshift算法。首先利用Kalman预测当前帧图像目标的位置,通过Camshift算法搜索与目标模板最相似的目标并更新Kalman滤波状态。该方法使搜索窗口能随目标轮廓变化而实时更新,提高跟踪的适应性和鲁棒性。