3D人体姿态估计=2D人体姿态估计+匹配.

虽然许多方法试图直接从单个 RGB 图像中预测 3D 姿态,但本文探索了一种通过中间 2D 姿态预测进行推理的简单架构,通过过姿势匹配解决 2D3D 关键点提升问题。方法基于两个关键观察结果:

  1. 深度神经网络彻底改变了 2D 姿势估计,即使对于具有自遮挡的姿势也能产生准确的 2D 预测
  2. “大数据” 3D 动作捕捉数据集现在容易获得,因此很容易通过简单的记忆将预测的 2D 姿势“提升”到 3D

由此产生的架构可以直接使用现成的 2D 姿态估计系统和 3D 动作捕捉库来实现。给定输入图像,首先估计 2D 姿态,然后通过与 3D 姿态库匹配来估计其深度。 最终预测由彩色骨架给出,而地面实况以灰色显示。 方法效果出奇地好,因为即使在遮挡期间 2D 姿势估计也是准确的,这表明 2D 姿势估计只需要通过添加深度值来实现3D 姿态估计。该方法优于几乎所有最先进的 3D 姿态估计系统,其中大多数直接尝试从 2D 测量中回归 3D 姿态。

为了丰富匹配库,通过使用随机相机将 3D 姿势投影回 2D 图像平面来生成大量 2D-3D 姿势对,得到了一个大型的 2D-3D 姿势对库。给定 2D 图像,只需要预测 2D 姿势,并从库中搜索最相似的 2D-3D 姿势对。配对的 3D 姿态被选为 3D 姿态估计结果。2D的姿态估计算法是基于CPM来做的,3Dmatch方法是KNN方法

当训练数据量非常多的时候,这种方法可能可以保证比较好的精度,但是在大部分时候,这种匹配方法的精度较粗,而且误差很大。