论文部分内容阅读
人机交互主要指人与智能机器之间的信息交互。从早期的鼠标控制到多点触控,再到体感技术,人机交互技术的不断进步颠覆了传统交互方式。近几年,随着深度学习、模式识别和智能信息处理等技术的发展,人机交互技术已逐步过渡到基于计算视觉的方法,能够以更自然的方式识别人类行为,给用户带来了全新体验。手势交互是最简单直接的人机交互方式之一,它包含从输入视频序列中检测手势目标并对手势进行跟踪,进一步对跟踪到的手势进行识别,最后将识别结果翻译成可被机器理解的语言。本课题从非线性系统估计问题展开,将人机交互系统分为三个模块,相互配合以达到一个可靠性较高的交互模式。三个核心模块分别为手掌手势检测模块、变形手势跟踪模块及静态手势识别模块。检测模块将检测到的手掌手势位置传输给跟踪模块,从而启动整个交互系统。本模块提出将手势肤色模型与梯度直方图特征相结合,高效的实现了手掌手势目标的快速定位。变形手势跟踪模块是基于手势行为的人机交互技术中的关键环节,将其应用于人机交互领域的最大难点在于手势目标形态的不确定性和运动轨迹的无规律性,且对实时性有较高要求。针对现有手势跟踪算法固有的局限性及手势形态的约束,本文跟踪模块采用了基于核密度函数的非参数估计方法,它的优势在于不需要先验知识而完全依靠现有数据进行估计,可以用于任意形状的密度估计。对各帧图像进行后验概率密度估计,从而获取运动目标的颜色概率密度图像。将其分解成手势运动区和同色干扰区,对同色干扰区进行高斯建模以削弱相近色目标的干扰。同时设计了再检测方案,解决了目标丢失再检测难题。此模块可以在手势外观大幅度改变的同时,对手势的非线性运动进行快速捕捉。静态手势识别模块分别采用卷积神经网络算法与基于多特征融合的K近邻分类算法对跟踪到的手势进行判断,最终实现了七种目标手势的识别。实验结果表明,识别模块与跟踪模块的配合完全满足系统实时性需求,在多种场景下实现了稳定性较高的人机交互作用。