论文部分内容阅读
三维人手姿态估计是人机交互领域的一个热门研究方向,主要研究如何从图像中估计人手三维姿态,在增强现实和虚拟现实技术中具有重大意义。根据图像形式的不同,该方向包含基于单目、多目和深度图像的估计任务。本文主要研究基于单目RGB图像的三维人手姿态估计方法,估计结果使用人手关键点的三维坐标表示。
首先,本文研究基于两阶段深度网络的估计方法。该方法分为两个阶段,第一阶段从图像中估计二维人手关键点的热度图,本文设计了一个新颖的编码解码网络实现逐像素估计。第二阶段从关键点热度图估计三维坐标,借鉴现有方法,本文将人手姿态分解为局部姿态和全局姿态,设计新的双分支网络分别进行估计。该方法的两个阶段分开训练,互不影响,网络结构简单,目的明确。实验表明,本文提出的两阶段方法能够有效地估计三维人手姿态。
其次,本文研究基于端到端深度网络的估计方法。本文提出了一种全新的人手姿态表示方法,并设计了一个新颖的端到端深度网络,监督和输出直接为人手关键点的二维和三维坐标,能够在估计任务中充分利用图像信息。该方法的输入和输出明确,无需额外数据处理,二维和三维估计任务相互联系,相互约束,相互优化。实验表明,本文提出的端到端方法效果达到了最先进的水平。
最后,本文研究基于图卷积深度网络的估计方法。图卷积网络是针对非网格结构图目标设计的神经网络。人手骨架结构是典型的非网格结构,本文根据人手骨架结构构建图目标,设计适用于二维特征图的图卷积网络,优化人手关键点的估计结果。该方法充分利用人手骨架结构,将人手结构和深度网络相结合。实验表明,本文提出的图卷积方法取得了最好的效果。
首先,本文研究基于两阶段深度网络的估计方法。该方法分为两个阶段,第一阶段从图像中估计二维人手关键点的热度图,本文设计了一个新颖的编码解码网络实现逐像素估计。第二阶段从关键点热度图估计三维坐标,借鉴现有方法,本文将人手姿态分解为局部姿态和全局姿态,设计新的双分支网络分别进行估计。该方法的两个阶段分开训练,互不影响,网络结构简单,目的明确。实验表明,本文提出的两阶段方法能够有效地估计三维人手姿态。
其次,本文研究基于端到端深度网络的估计方法。本文提出了一种全新的人手姿态表示方法,并设计了一个新颖的端到端深度网络,监督和输出直接为人手关键点的二维和三维坐标,能够在估计任务中充分利用图像信息。该方法的输入和输出明确,无需额外数据处理,二维和三维估计任务相互联系,相互约束,相互优化。实验表明,本文提出的端到端方法效果达到了最先进的水平。
最后,本文研究基于图卷积深度网络的估计方法。图卷积网络是针对非网格结构图目标设计的神经网络。人手骨架结构是典型的非网格结构,本文根据人手骨架结构构建图目标,设计适用于二维特征图的图卷积网络,优化人手关键点的估计结果。该方法充分利用人手骨架结构,将人手结构和深度网络相结合。实验表明,本文提出的图卷积方法取得了最好的效果。