人体姿态作为构图令牌.
本文提出了一种在姿态估计任务中引入 VQ-VAE 来约束姿态特征空间的方法Pose as Compositional Tokens (PCT)。PCT通过VQ-VAE学习关节点坐标的离散编码表,然后使用预训练的人体姿态编码器把人体图像编码到同一个特征空间,并通过查表的方式重构人体姿态。
在第一阶段,PCT使用大量人体姿态训练VQ-VAE。把$K$个维度是$D$的关节点坐标输入一个构图编码器,生成$M$个维度是$H$的token;其中构图编码器由线性层和MLP-Mixer组成。然后使用离散的编码表替换token为最接近的特征向量,并使用MLP-Mixer堆叠的解码器重构姿态。损失函数包括姿态的smooth-L1重构损失与编码表的L2损失:
\[L = smooth_{L_1}(\hat{G},G) + \beta \sum_{i=1}^M ||t_i - sg[c_{q(t_i)}]||_2^2\]在第二阶段,使用冻结的预训练人体姿态估计模型的特征提取部分提取人体图像的特征;然后做特征转换,构造$M$个维度是$H$的特征;最后使用轻量的类别头对每个特征进行分类,对应到编码表里面的特征索引。最后把预测特征替换成编码表里的特征,并用上一阶段训练好的解码器重构姿态。
由于 VQ-VAE 是直接在姿态上进行训练的,所以理论上学到的编码表中的特征可以任意组合出各种不同的姿态。在 OCHuman 和 CrowdPose 等数据集上的表现证明了模型对遮挡情况的鲁棒性。
由于 VQ-VAE 学到的编码表特征含义非常明确,很容易进行可视化验证,任意地调整输入解码器的特征组合,可以看到预测出来的姿态发生变化,并且这种变化是局部的。