通过残差对数似然估计实现人体姿态回归.
0. TL;DR
在人体姿态估计方法中,坐标回归采用 L1/L2 Loss 其实是从误差服从拉普拉斯/高斯分布的先验假设。本文提出了一种基于残差对数似然估计(Residual Log-likelihood Estimation, RLE)的新型人体姿态回归方法。该方法通过最大似然估计(MLE)建模输出分布,利用归一化流(Normalizing Flows)估计潜在分布的变化,从而显著提升回归方法的性能。实验表明,RLE在多个数据集上优于传统的回归方法和基于热图的方法,且在测试时无额外开销。
1. 背景介绍
人体姿态估计是计算机视觉中的一个重要任务,其目标是从图像中准确检测人体关键点的位置。现有的方法主要分为两类:基于热图的方法和回归方法。
- 基于热图的方法:通过生成每个关节的似然热图来定位关键点,具有优异的性能,但计算和存储开销较大。
- 回归方法:直接从输入图像回归关键点的坐标,效率更高,但在复杂场景下性能较差。
本文提出了一种新的回归范式,通过残差对数似然估计(RLE)来建模输出分布,从而在保持回归方法高效性的同时,显著提升其性能。
2. 方法介绍
传统的回归方法通常使用欧几里得距离损失(如$ℓ1$或$ℓ2$),这隐含地假设输出符合某种分布(如高斯分布或拉普拉斯分布)。然而,这些假设可能与真实分布不符,从而限制了回归方法的性能。从最大似然估计(MLE)的角度来看,回归任务可以被重新定义为最大化观测数据的似然概率。
给定输入图像$I$,回归模型预测一个分布$P_Θ(x\mid I)$,其中$x$表示关键点的坐标。假设观测到的标签$\mu_g$是从该分布中采样得到的,则最大似然估计的目标是最大化似然函数:
\[L_{mle} = -\log P_{\Theta}(x\mid I)|_{x=\mu_g}\]归一化流(Normalizing Flows)是一种通过可逆映射将简单分布转换为复杂分布的方法。本文利用归一化流来估计输出分布的变化,从而改进回归方法。
假设初始分布$P_Θ(z\mid I)$是一个高斯分布,通过一个可逆映射$f_ϕ:R^2\to R^2$将$z$转换为$x$,则$P_{Θ,ϕ}(x\mid I)$可以表示为:
\[\log P_{Θ,ϕ}(x\mid I) = \log P_{\Theta}(z\mid I) + \log \left| \det \frac{\partial f_{\phi}^{-1}(x)}{\partial x} \right|\]为了使模型更容易训练,本文引入了重参数化策略。假设所有潜在分布共享相同的分布族,但均值和方差不同。通过归一化流将零均值的初始分布映射为零均值的变形分布,然后通过预测的均值和方差进行平移和缩放,得到最终分布。
为了进一步简化训练过程,本文提出了残差对数似然估计(RLE)。假设存在一个简单的分布$Q(\overline{x})$,RLE通过学习$P_{opt}(\overline{x})-Q(\overline{x})$的残差来优化目标分布,从而减少对复杂分布的直接建模难度。最终的损失函数为:
\[L_{rle} = -\log Q(\overline{\mu}_g) - \log G_{\phi}(\overline{\mu}_g) + \log \hat{\sigma}\]本文采用 RealNVP 作为归一化流模型,具有轻量级和快速训练的特点。在训练阶段,回归模型和归一化流模型同时优化;在推理阶段,仅使用回归模型的输出,归一化流模型不参与推理,因此无额外测试开销。
3. 实验分析
数据集
- COCO Keypoint:大规模人体姿态估计数据集,包含 14.8 万张图像,标注了 17 个关键点。
- Human3.6M:室内 3D 人体姿态数据集,包含 3.6 万张图像,标注了 17 个关键点。
评估指标
- AP:平均精度,用于评估关键点检测的准确性。
- MPJPE:平均关节位置误差,用于评估 3D 姿态估计的准确性。
- PA-MPJPE:经过刚性对齐后的 MPJPE,用于评估 3D 姿态的相对准确性。
在 COCO 数据集上的实验结果表明:
- 与传统回归方法的对比:RLE 在 COCO 数据集上显著提升了回归方法的性能,mAP 提升了 12.4%。
- 与基于热图的方法对比:RLE 首次在多人体姿态估计任务中超越了基于热图的方法,且计算和存储效率更高。
- 与 SOTA 方法对比:RLE 在 COCO test-dev 数据集上达到了 75.1 mAP,与基于热图的 SOTA 方法相当。