估计一切姿态:面向类别无关的姿态估计.
TL; DR
本文提出了一个名为 Category-Agnostic Pose Estimation (CAPE) 的新任务,目标是开发一种能够处理任意类别物体姿态估计的模型,仅需少量标注样本即可检测新类别的关键点。为此,作者设计了一个名为 POse Matching Network (POMNet) 的框架,将姿态估计问题转化为关键点匹配问题,并引入了一个基于Transformer的 Keypoint Interaction Module (KIM) 来捕捉关键点之间的关系。此外,作者还构建了一个包含100个类别的大规模多类别姿态数据集 MP-100,用于推动相关研究的发展。实验表明,POMNet在姿态估计任务上显著优于现有方法。
1. 背景介绍
2D姿态估计(也称为关键点定位)旨在预测目标实例的预定义语义部分的位置。近年来,该领域在学术界和工业界都受到了广泛关注,例如人体姿态估计被广泛应用于虚拟现实(VR)和增强现实(AR),动物姿态估计在动物学和野生动物保护中具有重要意义,车辆姿态估计对自动驾驶至关重要。
然而,现有的姿态估计方法大多专注于某一特定类别(如人体、动物或车辆)。在实际应用中,用户往往需要检测各种新类别的姿态,但传统的方法只能应用于其训练过的类别。为了检测新类别的姿态,用户需要收集大量标注数据并设计特定类别的姿态估计模型,这既耗时又费力。此外,对于稀有对象(如濒危动物)和需要领域知识的案例(如医学图像),数据收集和语义关键点标注极为困难。因此,开发能够泛化到不同类别的姿态估计方法的需求日益增加。
本文引入了一个重要且具有挑战性的任务——Category-Agnostic Pose Estimation (CAPE),旨在使用单一模型检测任意类别的姿态,仅需少量标注样本即可。与传统姿态估计方法不同,CAPE模型需要在训练时处理多类别数据,并在测试时泛化到新类别。
2. 方法介绍
POMNet将姿态估计问题转化为关键点匹配问题,通过计算支持图像中的参考关键点特征与查询图像特征之间的匹配相似度来预测关键点位置。POMNet由三个部分组成:特征提取器、关键点交互模块(Keypoint Interaction Module, KIM)和匹配头(Matching Head, MH)。
⚪ 特征提取器
POMNet使用两个并行的特征提取器分别提取支持图像和查询图像的特征。具体来说,对于支持图像 $I_S$,使用特征提取器 $\Theta_S$ 提取支持图像特征 $F_S=\Theta_S(I_S)$。支持样本的关键点标注以热图形式提供,记为 $H_S^*$。通过以下公式计算每个关键点的特征:
\[\hat{F}_j^S = AvgPool(Upsample(F_S) \otimes H_j^*)\]其中,$H_j^*$ 是第 $j$ 个关键点的热图,$\otimes$ 表示逐像素相乘,$AvgPool$ 是平均池化操作,用于聚合支持图像特征。
对于查询图像 $I_Q$,同样使用特征提取器 $\Theta_Q$ 提取查询图像特征 $F_Q=\Theta_Q(I_Q)$。然后将查询图像特征展平为序列,用于后续的关键点特征交互和匹配。
⚪ 关键点交互模块
关键点交互模块KIM的目标是通过高效的注意力机制增强支持关键点特征。KIM由三个Transformer块组成,每个块包含两个主要组件:自注意力(Self-Attn.)和交叉注意力(Cross-Attn.)。
- 自注意力:自注意力层允许关键点特征之间相互交互,利用注意力权重聚合这些交互,从而捕捉对象的内在结构。
- 交叉注意力:关键点特征还与查询图像特征交互,以对齐特征表示并减少表示差距。具体来说,交叉注意力层将关键点特征作为查询,展平的查询图像特征作为键和值,通过注意力机制聚合查询图像中的有用信息。
最终,KIM输出增强后的关键点特征$\hat{F}_1^S,…,\hat{F}_J^S$,其中 $J$ 是参考关键点的数量。
⚪ 匹配头
匹配头的目标是在查询图像中找到与增强后的关键点特征最匹配的位置,并以热图形式输出预测结果。具体来说,将增强后的关键点特征扩展到与查询图像特征相同的分辨率,然后与查询图像特征进行通道级拼接,最终通过解码器 $Θ_M$ 生成预测关键点热图 $H_j^Q$。
\[H_j^Q = \Theta_M(Expand(\hat{F}_j^S) \oplus F_Q)\]其中,$⊕$ 表示通道级拼接,Expand 表示空间扩展操作。
3. 实验分析
为了推动 CAPE 任务的研究,作者构建了一个名为 Multi-category Pose (MP-100) 的大规模多类别姿态数据集。MP-100 数据集包含 100 个子类别(关键点数量从8个到68个)和 8 个超类别(Human Hand,Human Face,Human Body,Animal Body,Animal Face,Clothes,Furniture,Vehicle),覆盖了超过 20K 个实例。该数据集是第一个包含多个视觉(超)类别的姿态注释的基准。
为了验证 POMNet 的有效性,作者将现有的少样本学习方法(如 Prototypical Networks、MAML 和 Fine-tune)适配到 CAPE 任务上,并在 MP-100 数据集上进行比较。实验表明POMNet在 5-shot 和 1-shot 设置下均显著优于其他方法。
为了进一步评估模型的泛化能力,作者采用“留一法”策略进行跨超类别姿态估计。具体来说,模型在 MP-100 数据集的所有超类别上进行训练,除了一个超类别,然后在剩余的超类别上进行评估。POMNet在所有超类别上均优于其他方法,显示出更强的泛化能力。然而,对于车辆和家具这两个超类别,所有方法的性能都较低,这可能是由于这些类别与训练类别差异较大,且车辆类别存在大量不可见的关键点,家具类别内部变化较大。