用于人体姿态估计热图分布匹配.
基于 Gaussian Heatmap 监督的人体姿态估计方法的标准做法是人工渲染一张二维高斯分布热图,然后模型也预测一张热图,两张图计算MSE损失。
然而MSE损失在 Heatmap 这种密集预测任务上是存在问题的,当损失降低时模型的预测结果并不一定会变好。如下图所示,对于人工渲染的高斯热图(b)而言,预测结果(c)能通过 Argmax 解码得到准确的定位,而(d)则出现了偏差;但 MSE 计算出来的损失值却是(d)更小,所以模型训练优化时会认为(d)是更好的。
在监督信号方面,传统的人工渲染 Gaussian Heatmap 的方式是非常不合理的,对于所有图片都使用相同的 $\sigma$ 渲染。本文使用了更简单的监督信号,通过插值的方式直接将连续空间上的坐标用相邻的离散像素计算表示。具体而言,对于二维空间上的标注点(红色三角),可以表示为周围最近的四个像素采样点上的权重与它到四个点距离的加权和:
损失函数直接优化预测热图与监督热图的Wasserstein距离。
实验结果表明,在较大的输入尺寸(384x288)上的姿态估计的性能提升还是比较明显的。
由于抛弃了人工渲染 Gaussian Heatmap,模型预测的结果也有所改变,不再是非常大的一片区域,而是非常凝聚的接近于一个点。