低分辨率人体姿态估计.

0. TL;DR

本文针对低分辨率图像中的人体姿态估计问题,提出了一个新的方法——Confidence-Aware Learning (CAL)。该方法通过引入高斯加权的热图和偏移量学习,解决了现有偏移量学习方法中存在的训练与测试不一致以及热图与偏移量学习解耦的问题。在COCO数据集上的实验表明,CAL在低分辨率图像上显著优于现有的SOTA方法,达到了72.3%AP值。

1. 背景介绍

人体姿态估计是计算机视觉中的一个基础问题,广泛应用于动作识别、人体生成、行人重识别、人机交互等领域。尽管高分辨率图像上的人体姿态估计已经取得了显著进展,但在实际应用中,低分辨率图像(如128×96)仍然很常见,例如在广角视频监控或远距离拍摄中。低分辨率图像会带来量化误差,导致基于热图的方法性能下降。因此,研究低分辨率图像上的人体姿态估计具有重要的现实意义。

传统的解决方法包括使用超分辨率技术恢复图像分辨率,但这种方法不仅增加了计算开销,还可能引入结构失真。本文通过实验发现,基于偏移量的方法(如UDP)在低分辨率图像上表现出色,因此提出了一种新的Confidence-Aware Learning (CAL)方法,通过高斯加权的热图和偏移量学习,进一步提升了低分辨率图像上的人体姿态估计性能。

2. Confidence-Aware Learning

热图方法通过生成每个关节的高斯热图来定位关键点,具有良好的抗误标记能力,但对下采样操作敏感,容易引入量化误差。低分辨率图像会放大这种误差,导致性能下降。

偏移量学习方法将姿态估计问题分解为两个部分:粗略位置预测和偏移量预测。通过在粗略位置上添加偏移量来获得最终预测,从而缓解量化误差问题。

然而,现有方法存在两个局限性:

为了解决二值热图的局限性,CAL引入了高斯加权的热图。本文作者设计了一个实验,统计Heatmap粗略预测的坐标,跟GT的偏差值范围的分布:根据偏差值的大小进行了分段统计,最终发现偏差值符合高斯分布。

通过将二值热图与高斯分布相乘,为靠近真实关节位置的像素赋予更高的权重,从而提高粗略位置预测的准确性。

\[G_{k_i}(p)=B_{k_i}(p)⋅C_{k_i}(p)\]

为了使偏移量学习与粗略位置预测更紧密地结合,CAL提出了高斯偏移量加权方法。通过收集预测热图中粗略位置与真实位置之间的相对偏移量,并使用高斯混合模型(GMM)对其进行建模,生成混合高斯掩码(MGM)来加权偏移量损失。

GMM拟合的前提是粗略预测的关键点正确;而在训练的初期,模型预测的结果是不可靠的,并不能用于训练GMM。因此CAL采用两阶段训练策略:

3. 实验分析

本文在COCO数据集上进行实验,该数据集包含287K图像和1.5M物体实例。使用Object Keypoint Similarity (OKS)计算预测与真实值之间的相似度,并以OKS为基础的平均精度(AP)和平均召回率(AR)作为评估指标。

在低分辨率(128×96)设置下,CAL显著优于现有的热图方法和偏移量方法。

尽管超分辨率技术可以提升低分辨率图像的姿态估计性能,但CAL在低分辨率设置下仍然显著优于超分辨率预处理的方法。

在高分辨率(384×288)设置下,CAL仍然优于现有的SOTA方法,尽管性能差距不如低分辨率设置下显著。