AID: Pushing the Performance Boundary of Human Pose Estimation with Information Dropping Augmentation

AID：通过信息丢弃增强提高人体姿态估计的表现.

paper：AID: Pushing the Performance Boundary of Human Pose Estimation with Information Dropping Augmentation

模型在定位图像中的人体关键点时通常会使用两种信息：外观信息和约束信息。外观信息是定位关键点的基础，而约束信息则在定位困难关键点时具有重要的指导意义。约束信息主要包含人体关键点之间固有的相互约束关系以及人体和环境交互形成的约束关系。

直观上看，约束信息相比外观信息而言更复杂多样，对于网络而言学习难度更大，这会使得在外观信息充分的情况下，存在约束条件被忽视的可能。基于此假设，本文引入信息丢弃的正则化手段，通过在训练过程中以一定的概率丢弃关键点的外观信息，以此避免训练过程过拟合外观信息而忽视约束信息。

该方法随机选择一个关键点$k$，然后遮挡该关键点附近的一个圆形邻域。圆的半径设置为$r \in [0.1w,0.2w]$，其中$w$是图像的输入宽度。为了防止网络对数据增强过拟合（被遮挡区域中心总是存在一个关键点），额外引入一个偏移向量$\delta$，在训练时随机偏移遮挡中心点的概率为$50\%$。

虽然随机丢弃外观信息可以避免训练过程过拟合外观信息，但是由于外观信息是视觉定位人体关键点的基础，外观信息的缺乏会使得训练前期收敛较慢，网络需要一个更长训练周期才能达到完全收敛。

实验们通过使用多种基线验证了上述假设的合理性以及所提出方法的有效性。在不同的baseline上所提出的方法表现惊人的一致，这个一方面反映了这种过拟合外观信息的问题是广泛存在的，修改网络、增加数据并不能解决这个问题。另外一个方面也验证信息丢弃可以有效遏制这个问题。

下图分别可视化了一些网络的预测结果、标注结果以及没有使用信息丢弃的结果。在外观信息缺乏或者具有迷惑性的场景内，约束信息显得尤为重要，而使用信息丢弃增广训练得到的模型在这些情况下对关键点的定位更准确、合理。