论文部分内容阅读
手势是人类日常生活中非常重要的交流方式之一,能够直观地表达富有丰富的语义信息,被广泛的用于人机交互,虚拟现实以及失语者的手语等方面。使用机器视觉算法识别出手势表达的语义信息具有很高的研究价值。本文的研究对动态手势识别课题提供了新的研究思路及相关方法,并对面向人机交互和手语识别领域的研究打下了技术基础。手作为人体中最灵活的部位,使其在检测、跟踪、分类和识别等任务上极具挑战。基于机器视觉的手势识别算法往往面临如下问题:1)人手的分辨率较低;2)人手目标所处背景环境杂乱;3)手与手或者手与物体的交互;4)手被遮挡;5)不同的手势具有较大的相似度;6)人手的多自由度特性;7)多视角歧义;8)不同的形状和尺度;9)检测和识别网络参数的训练调优问题。本论文来源于校内自选项目,基于机器视觉技术,面向人机交互以及手语的动态手势识别。本课题的研究分为如下四个方面:1)通过像素级的人体皮肤区域检测模型(MFS),找出图像中皮肤掩膜,并且使用特征索引的字典学习算法对皮肤掩膜的边界轮廓进行精修,以便尽可能地保留皮肤区域的信息;2)提出一种层级融和卷积神经网络的人手目标检测框架-CCNN,通过皮肤检测模型得出的皮肤掩膜来监督CCNN来检测人手位置;3)提取人手姿态骨架信息,使用卷积姿态估计框架作为基础弱检测器,使用多目和单目两种方式进行训练出强检测器;4)用时空域图的结构表示序列人手骨架,并提出HA-GCN框架识别人机交互以及手语的几种动态手势。本论文的研究工作和创新点如下:(1)本文提出一种基于多特征的皮肤区域检测方法。由于人手检测受到背景干扰严重等问题,需要去除背景对人手检测的干扰,所以本文基于传统像素级皮肤检测方法所用的特征进行试验和筛选,筛选对皮肤区域检测贡献度最高的特征,并取代传统的单像素检测方法,使用超像素(像素簇)来聚合局部外观信息。结合第一视角穿戴设备拍摄含有人手的场景进行全局聚类方式进行皮肤区域像素的掩膜提取。在提取皮肤区域掩膜后,为了完善边界以保留更全面的信息,使用HOG特征索引的字典学习算法,进一步对皮肤区域进行精准分割,实现了良好的皮肤掩膜提取,为人手识别的后续工作打下了良好的基础。(2)本文提出了一种基于层级特征融合卷积神经网络的目标检测方法(CCNN)。基于皮肤区域掩膜,进行人手区域提议,即找出皮肤区域中可能存在手的位置。本文根据人手的几何特性和k均值线两种方法,从皮肤中提议出可能含有手的定位框来监督人手检测框架的感受野。为了提高人手检测器的鲁棒性,本文针对实时目标检测框架SSD的不足之处,循环地融合层级特征进行训练和检测。融合的特征能够保留层级上下文信息,解决了每一层单独对相应尺度检测的问题。(3)在人手精确定位的基础上,使用深度学习姿态估计框架卷积姿态检测器(CPM)为基础检测器,并且使用多目和单目两种方法进行更加鲁棒的关节点提取。由于人手的交互性,多视角歧义,遮挡和多自由度的特性,可以利用多目视角从各个角度进行检测骨架位置,并由N最佳(最接近真实标注)的检测结果对其他视角骨架点作二次映射转换,然后进行再训练,由此获得强检测器。单目检测器是根据以上的视角信息训练一个网络来学习不同视角中二维关节图到三维关节点图的三角转换映射,以推断出三维骨架图。(4)提出一种基于HA-GCN的动态骨架手势识别方法。根据姿态估计框架,在视频中提取出人手骨骼点,得到序列人手骨架信息。其中每一帧以手腕处关节点为根节点,共选取1 1个关节点来表示运动。根据每一帧的关键点及其连接,构造时空域图,代表运动的时空域关系。然后对GCN进行改进,使其可以在时空域图上进行卷积操作,从而达到基于骨架信息的动态手势识别功能,即动态手势GCN识别框架(HA-GCN)。经过本文对动态手势识别课题的深入研究,为该课题提供了创新性的思路及算法。但仍存在不足和需要改进之处:1)本文人手目标和检测框架综合考虑并结合了人工特征提取和深度学习框架,加入环境信息(如姿态估计中上肢末端,即手腕的延伸位置大概率为人手)也许会进一步提高人手检测的鲁棒性。2)姿态估计框架对人手关节点检测精度还有待提高。3)基于骨架信息的HA-GCN框架依赖于姿态估计精度,可以与基于RGB视频的方法结合(如本文人手目标检测的思路)以求更高的精度。4)HA-GCN面向单手目标,未来工作应该考虑多手目标以及人体上半身交互的场景,另外运行速度也是未来研究的重点。