基于深度神经网络的动态手势识别技术研究

来源 :中国矿业大学(北京) | 被引量 : 0次 | 上传用户：blusky

【摘要】

：

手势是人类日常生活中非常重要的交流方式之一,能够直观地表达富有丰富的语义信息,被广泛的用于人机交互,虚拟现实以及失语者的手语等方面。使用机器视觉算法识别出手势表达

【作者】

：

王强宇

【出处】

：

中国矿业大学(北京)

【发表日期】

：

2019年01期

【关键词】

：

动态手势识别机器视觉深度学习目标检测姿态估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

手势是人类日常生活中非常重要的交流方式之一,能够直观地表达富有丰富的语义信息,被广泛的用于人机交互,虚拟现实以及失语者的手语等方面。使用机器视觉算法识别出手势表达的语义信息具有很高的研究价值。本文的研究对动态手势识别课题提供了新的研究思路及相关方法,并对面向人机交互和手语识别领域的研究打下了技术基础。手作为人体中最灵活的部位,使其在检测、跟踪、分类和识别等任务上极具挑战。基于机器视觉的手势识别算法往往面临如下问题:1)人手的分辨率较低;2)人手目标所处背景环境杂乱;3)手与手或者手与物体的交互;4)手被遮挡;5)不同的手势具有较大的相似度;6)人手的多自由度特性;7)多视角歧义;8)不同的形状和尺度;9)检测和识别网络参数的训练调优问题。本论文来源于校内自选项目,基于机器视觉技术,面向人机交互以及手语的动态手势识别。本课题的研究分为如下四个方面:1)通过像素级的人体皮肤区域检测模型(MFS),找出图像中皮肤掩膜,并且使用特征索引的字典学习算法对皮肤掩膜的边界轮廓进行精修,以便尽可能地保留皮肤区域的信息;2)提出一种层级融和卷积神经网络的人手目标检测框架-CCNN,通过皮肤检测模型得出的皮肤掩膜来监督CCNN来检测人手位置;3)提取人手姿态骨架信息,使用卷积姿态估计框架作为基础弱检测器,使用多目和单目两种方式进行训练出强检测器;4)用时空域图的结构表示序列人手骨架,并提出HA-GCN框架识别人机交互以及手语的几种动态手势。本论文的研究工作和创新点如下:(1)本文提出一种基于多特征的皮肤区域检测方法。由于人手检测受到背景干扰严重等问题,需要去除背景对人手检测的干扰,所以本文基于传统像素级皮肤检测方法所用的特征进行试验和筛选,筛选对皮肤区域检测贡献度最高的特征,并取代传统的单像素检测方法,使用超像素(像素簇)来聚合局部外观信息。结合第一视角穿戴设备拍摄含有人手的场景进行全局聚类方式进行皮肤区域像素的掩膜提取。在提取皮肤区域掩膜后,为了完善边界以保留更全面的信息,使用HOG特征索引的字典学习算法,进一步对皮肤区域进行精准分割,实现了良好的皮肤掩膜提取,为人手识别的后续工作打下了良好的基础。(2)本文提出了一种基于层级特征融合卷积神经网络的目标检测方法(CCNN)。基于皮肤区域掩膜,进行人手区域提议,即找出皮肤区域中可能存在手的位置。本文根据人手的几何特性和k均值线两种方法,从皮肤中提议出可能含有手的定位框来监督人手检测框架的感受野。为了提高人手检测器的鲁棒性,本文针对实时目标检测框架SSD的不足之处,循环地融合层级特征进行训练和检测。融合的特征能够保留层级上下文信息,解决了每一层单独对相应尺度检测的问题。(3)在人手精确定位的基础上,使用深度学习姿态估计框架卷积姿态检测器(CPM)为基础检测器,并且使用多目和单目两种方法进行更加鲁棒的关节点提取。由于人手的交互性,多视角歧义,遮挡和多自由度的特性,可以利用多目视角从各个角度进行检测骨架位置,并由N最佳(最接近真实标注)的检测结果对其他视角骨架点作二次映射转换,然后进行再训练,由此获得强检测器。单目检测器是根据以上的视角信息训练一个网络来学习不同视角中二维关节图到三维关节点图的三角转换映射,以推断出三维骨架图。(4)提出一种基于HA-GCN的动态骨架手势识别方法。根据姿态估计框架,在视频中提取出人手骨骼点,得到序列人手骨架信息。其中每一帧以手腕处关节点为根节点,共选取1 1个关节点来表示运动。根据每一帧的关键点及其连接,构造时空域图,代表运动的时空域关系。然后对GCN进行改进,使其可以在时空域图上进行卷积操作,从而达到基于骨架信息的动态手势识别功能,即动态手势GCN识别框架(HA-GCN)。经过本文对动态手势识别课题的深入研究,为该课题提供了创新性的思路及算法。但仍存在不足和需要改进之处:1)本文人手目标和检测框架综合考虑并结合了人工特征提取和深度学习框架,加入环境信息(如姿态估计中上肢末端,即手腕的延伸位置大概率为人手)也许会进一步提高人手检测的鲁棒性。2)姿态估计框架对人手关节点检测精度还有待提高。3)基于骨架信息的HA-GCN框架依赖于姿态估计精度,可以与基于RGB视频的方法结合(如本文人手目标检测的思路)以求更高的精度。4)HA-GCN面向单手目标,未来工作应该考虑多手目标以及人体上半身交互的场景,另外运行速度也是未来研究的重点。

其他文献

商业银行跨国并购策略分析——基于合约理论的视角

商业银行进行跨国并购时,并购主体合约主要受并购银行对被并购银行未来发展相关信息获取的影响。当被并购银行拥有不可验证的信息时,并购方对被并购方的价值估计往往会出现偏

期刊

商业银行跨国并购合约理论

论胡适与“学衡派”在文化建设观念上的分野

在如何设计和建设中国现代文学和文化的问题上,胡适与学衡派表现出实质性分歧。胡适是理论家,但更是实践家,他的贡献更在于开文学和学术的风气之先。学衡派所主张的昌明中国

期刊

胡适学衡派新文化派文化建设

锥形毛细芯平板热管传热特性研究

随着机械电子设备的不断发展,热管理问题面临越来越严重的挑战,为解决此问题,根据仿生学原理,以天鹅绒竹芋表面微观凸起结构为设计依据,以纳米尺度铜粉为材料烧结制备锥形毛

期刊

锥形毛细芯平板热管传热氧化热阻

基于忆阻器件交叉阵列的智能系统实现方案研究

1971年,美籍华人科学家Leon O.Chua教授根据电路理论的完备性确定了电荷和磁通量之间的关系,由此定义了忆阻器,并称之为除电阻、电容和电感之外的第四种基本电路元件。2008年

学位

忆阻器RBF神经网络蕴含逻辑随机计算隶属函数

国内外废润滑油的再生

由于能源的紧张和环境保护意识的增强,废润滑油再生工艺日益得到各国的重视,将废润滑油再精炼成润滑油基础油的工艺由此得到迅速发展。文章介绍了废润滑油再精炼的一般步骤,

期刊

废润滑油再精炼技术基础油加氢工艺

电视纪录片主题深化论

<正> 所谓电视纪录片的主题,就是在电视屏幕上用纪录性节目的样式,通过表现大自然,再现现实生活和评价典型人物所体现出来的中心思想。电视纪录片的主题是作品内容的主体和核

期刊

电视纪录片审美理想创作者鲁迅故居

植物油脂肪酸的摩擦特性

在四球机上考察了几种植物油脂肪酸 (饱和的与不饱和的、碳链长的与碳链短的 )的摩擦学性能 ,发现相同碳数的脂肪酸 ,饱和脂肪酸的润滑性要好于不饱和脂肪酸的。

期刊

植物油脂肪酸摩擦特性润滑性

细菌觅食优化算法的研究与改进

随着现代社会的进步,最优化问题已经越来越深入到我们生产、生活的各个方面;同时,问题的规模和复杂度也越来越高。传统的数学方法在解决这些优化问题时,求解的精度和效率往往

学位

高维优化多目标优化细菌觅食优化算法自适应步长逃逸现象栅格

南朝宋文帝初年政争与禁卫军权

宋文帝初年政争与禁卫军权有密切关系。宋文帝入主建康的前后,以其藩邸心腹旧臣琅邪王氏王华等为决策咨询机构长官兼任高级禁卫武官。宋文帝与旧辅政大臣徐羡之等人在任命中

期刊

宋文帝禁卫军权政争

基于肠道菌群-免疫调控的六神曲治疗功能性消化不良的机制研究

目的:目前已证实六神曲(MMF)能促进食积小鼠胃排空,降低胃内pH,增加胃蛋白酶含量并增加食积小鼠乳酸杆菌、双歧杆菌的表达,降低中性菌大肠杆菌和肠球菌的表达。本研究旨在建

学位

功能性消化不良六神曲肠道菌群短链脂肪酸

基于深度神经网络的动态手势识别技术研究

其他学术论文