单目人体姿态估计的深度学习方法综述.

基于视觉的单目人体姿态估计(Monocular Human Pose Estimation)旨在从输入图像或视频序列中获得人体的姿态。这篇综述总结了$2014$年以来提出的基于深度学习的$2D$和$3D$人体姿态估计方法。

① 2D人体姿态估计 2D Human Pose Estimation

$2D$人体姿态估计通过单目图像或视频计算人体关节点(joint)的位置,并进一步生成$2D$人体骨架。

2D单人人体姿态估计 2D single person pose estimation

$2D$单人人体姿态估计可以分为基于回归(regression-based)的方法或基于检测(detection-based)的方法。

(a) Regression-based methods

基于回归的方法直接预测人体各关节点的联合坐标

忽略关节周围的信息会缺乏鲁棒性,同时学习热图联合坐标可以保留两种表示的优点。

直接从原始输入图像中预测关节坐标非常困难,下面的方法通过改进网络结构人体模型结构来改善方法的性能。

下面的方法将姿态估计任务与其他和人体密切相关的任务结合,使用网络同时学习多种特征,以改善对关节坐标的预测。

(b) Detection-based methods

基于检测的方法使用热图来指示关节的真实值。如下图所示,每个关键点占据一个热图通道,表示为以目标关节位置为中心的二维高斯分布。

下面的方法试图将人体结构信息进行编码并输入网络。

下面的方法使用生成对抗网络学习身体结构,或为网络训练提供对抗监督。

下面的方法使用时间信息来增强对于单目视频序列中的人体姿态估计。

下面的方法旨在低容量的设备上进行姿态估计,在保持性能的同时减少网络参数。

2D多人人体姿态估计 2D multi-person pose estimation

与单人姿态估计相比,多人姿态估计需要同时完成检测估计任务。根据完成任务的顺序不同,多人姿态估计方法分为自上而下(top-down)的方法和自下而上(bottom-up)的方法。

(a) Top-down methods

自上而下的方法中两个最重要的组成部分是人体区域检测器单人姿态估计器。大多数研究基于现有的人体检测器进行估计,如Faster R-CNNMask R-CNNFPN

通过将现有的人体检测网络和单人姿态估计网络结合起来,可以轻松实现自上而下的多人姿态估计。这类方法几乎在所有Benchmarks上取得了最先进的表现,但这种方法的处理速度受到检测人数的限制。

(b) Bottom-up methods

自下而上的人体姿态估计方法的主要组成部分包括人体关节检测候选关节分组。大多数算法分别处理这两个组件。

以上方法都是将关节检测和关节分组分开。最近,一些方法可以在单阶段进行预测。

一些方法采用多任务学习的结构。

目前,自下而上的方法处理速度非常快,有些方法可以实时运行。但是性能会受到复杂背景和人为遮挡的影响。

② 3D人体姿态估计 3D Human Pose Estimation

$3D$人体姿态估计通过图像或视频在$3D$空间中计算人体关节点(joint)的位置,并进一步生成$3D$人体骨架。与$2D$人体姿态估计相比,$3D$人体姿态估计需要估计深度(depth)信息。本节总结了从单目RGB图像和视频中估计$3D$人体姿态的深度学习方法。

3D单人人体姿态估计 3D single person pose estimation

根据是否应用人体模型(human body model),$3D$单人姿态估计可以分为不用模型(model-free)的方法和基于模型(model-based)的方法。

(a) Model-free methods

不用模型的方法可以分成两类。第一类是直接把图像映射成$3D$姿态;第二类是从$2D$姿态估计的结果中估计深度信息。

从图像中直接估计$3D$姿态通常包含很少的约束。

下面的方法试图将身体结构信息人体关节之间的依赖关系添加到深度网络中。

从$2D$姿态估计的结果中估计深度信息,再生成$3D$姿态估计的方法可以很容易地利用$2D$姿态数据集,并且具有$2D$姿态估计的优点。

将$2D$姿态映射到$3D$姿态时,可以采用不同的策略。

(b) Model-based methods

基于模型的方法通常采用人体参数模型从图像中估计人的姿态和形状。

一些工作采用了SMPL人体模型,从图像中估计三维参数。

直接学习SMPL的参数是困难的,一些工作预测中间线索作为约束。

运动学模型(kinematic model)广泛应用于$3D$人体姿态估计中。

除这些典型的人体模型外,从数据中学习到的潜在$3D$姿态模型也用于$3D$人体姿态估计。

3D多人人体姿态估计 3D multi-person pose estimation

$3D$多人姿态估计方法基于$3D$单人姿态估计方法。

③ 数据集 Datasets

(1)Datasets for 2D human pose estimation

本节介绍超过$1000$张的$2D$人体姿态估计数据集。

除了上述静态图像数据集,下面提到了一些具有密集注释视频帧的数据集。这些数据集包括更接近现实生活的应用场景,提供了利用时间信息的可能性,并可用于动作识别。

(2)Datasets for 3D human pose estimation

本节总结了涉及RGB图像和三维联合坐标的$3D$人体姿态估计数据集。

④ 评估工具 Evaluation protocol

(1)Evaluation Metrics of 2D human pose estimation

不同的数据集具有不同的特征(如不同范围的人体大小和不同的任务要求),因此具有不同的评价指标。

(2)Evaluation Metrics of 3D human pose estimation