Revealing the Dark Secrets of Masked Image Modeling

揭露掩码图像建模方法的有效性.

paper：Revealing the Dark Secrets of Masked Image Modeling

作为预训练的掩码图像建模（MIM）被证明对于许多视觉下游任务是有效的，但MIM如何工作仍然不清楚。为了研究这些问题，作者从可视化和实验两个角度将MIM与监督模型进行了比较，试图揭示这两个预训练任务之间的关键表征差异。

1. 可视化

本文从三个角度研究预训练模型的注意力图：

平均注意力距离：以测量它是局部注意力还是全局注意力；
注意力分布熵：以衡量它是聚焦注意力还是广播注意力；
不同注意头的KL散度：以调查这些注意头是在注意不同的token还是类似的token。

（1）平均注意力距离

图像具有很强的局部性：彼此相邻的像素往往高度相关，这促使在视觉感知架构中使用局部先验。因此研究MIM模型是否会给模型带来局部归纳偏置是很有价值的。通过计算每个层的每个注意力头部的平均注意力距离来实现这一点。

下图显示了不同层的不同注意力头部的平均注意力距离，包括监督模型（DeiT）、对比学习模型（MoCo v3）和以ViT-B为主干的SimMIM模型。监督模型与对比学习模型倾向于在较低层学习局部注意，但在较高层学习全局注意力。但对于SimMIM训练的模型，每一层都有不同倾向于聚集局部和全局像素的注意力头部，并且平均注意力距离与监督模型的较低层相似。随着层数的增加，平均注意力距离变得更小。MIM给训练的模型带来了局部归纳偏置，即模型倾向于在注意力头部聚集附近的像素。

SimMIM设计了一种新的度量AvgDist，它测量掩码像素到最近可见像素的平均欧几里德距离。高微调精度的模型大致分布在AvgDist $[10, 20]$的范围内，并且这些模型具有较小的平均注意力距离。也就是说，MIM中适度的预测距离将带来更大的局部强度，并带来更好的微调性能。

（2）注意力分布熵

通过平均每个头部的注意力分布的熵来测量注意力图，以确定注意力头部是注意在几个token上还是广泛注意多个token。对于监督模型与对比模型，在较低层中的一些注意力头部具有非常集中的注意力，但在较高层中，大多数注意力头部的注意力都非常广泛。但是对于MIM模型，不同注意力头部的熵值在所有层中都是不同的，一些注意力头部更加集中，一些头部具有非常广泛的注意力。

（3）注意力头的多样性

通过计算每个层中不同头部的注意力图之间的Kullback–Leibler（KL）散度，进一步探索不同头部是否注意不同/相似的token。MIM模型的所有层上，不同的注意力头倾向于聚合不同的token。但对于监督模型和对比学习模型，注意力头部的多样性随着层次的加深而变小，几乎从最后三个层次消失。

失去不同注意力头部的多样性可能会限制模型的容量。为了调查注意力头部的多样性损失是否有任何不利影响，从最后开始逐渐删除层，并在为COCO val2017姿态估计和NYUv2深度估计的下游任务微调模型时仅加载之前的层。当丢弃两到八层时，尽管模型变小，但监督预训练模型在COCO val2017姿态估计上的性能优于基线，并且在NYUv2深度估计上的表现与基线相当。这表明，在有监督的预训练模型中，注意力头部差异较小的最后几层确实会影响下游任务的执行。

（4）特征图的相似性

通过CKA相似性研究不同层的特征图之间的相似性。对于监督模型，不同层学习不同的表示结构，它们的CKDA相似性差异很大（$[0.5,1.0]$）。对于对比学习与MIM，不同层的表示结构几乎相同，它们的CKA相似性都非常大（$[0.9, 1.0]$）。

2. 实验

本节通过比较MIM和监督预训练模型在三种类型的任务上的微调性能进行了大规模研究，即语义理解任务（例如不同领域中的图像分类）、几何和运动任务（例如姿态/深度估计和视频对象跟踪），以及同时执行两种类型的任务的组合任务（例如目标检测）。

（1）语义理解任务

不同语义理解任务的结果如表所示。对于类别被ImageNet类别充分覆盖的分类数据集（例如CIFAR-10/100），作为预训练，监督模型可以获得比MIM模型更好的性能。然而对于其他数据集，如细粒度分类数据集（如Food、Birdsnap、iNaturalist），或具有不同输出类别的数据集（例如CoG），监督模型中的大多数表示能力难以转移；因此MIM模型显著优于监督的模型。

（2）几何和运动任务

本节研究MIM模型如何执行几何和运动任务，这些任务需要定位对象的能力，并且较少依赖于语义信息。

对于姿态估计，使用ImageNet-1K预训练的MIM模型在很大程度上超过了监督模型。即使使用ImageNet-22K对监督的模型进行预训练，其性能仍比使用ImageNet-1K预训练的MIM模型差。
对于深度估计，与ImageNet-22K的监督预训练相比，MIM预训练确实将SwinV2-B的性能提高了0.03 RMSE。在监督预训练的情况下，较大的模型SwinV2-L对NYUv2数据集没有任何增益；而在MIM预训练的条件下，SwinV2-L比SwinV2-B的RMSE增益约为0.02。
对于视频对象跟踪，MIM模型也显示出比监督预训练模型更强的传输能力。在长期数据集LaSOT上，具有MIM预训练SwinV2-B骨干的SwinTrack获得了与SOTA MixFormer-L相当的结果。

（3）目标检测任务

在目标检测COCO上MIM模型优于以SwinV2-B为骨干监督模型。绘制了对象分类Lcls和定位Lbbox的损失曲线，发现MIM模型有助于定位任务更快更好地收敛，而监督模型更有利于对象分类。即MIM模型在几何和运动任务上的表现更好，而在其类别被ImageNet（如COCO）充分覆盖的任务上，MIM模型的表现相当或稍差。