位置预测作为高效的预训练策略.
本文提出了一种基于视觉Transformer的自监督预训练策略:从内容中预测位置,而不提供位置信息。该任务需要Transformer理解输入的不同部分之间的位置关系,是一个每个输入令牌的所有可能位置之间的分类问题。
Transformer对输入令牌的顺序相对不敏感,预训练的视觉Transformer对图像patch变换扰动具有很强的鲁棒性。在预训练阶段,视觉Transformer接收一组令牌(如图像patch),但不提供它们的位置;预训练任务是恢复每个输入令牌的位置,将其转换为所有位置之间的分类问题。
为了解决这个任务,Transformer需要推断输入令牌的高阶交互,这相当于理解由输入表示的底层语义(如给定对象的部分-整体关系)。Transformer通常可以在位置预测任务上达到近乎完美的精度。
作者建议通过选择一个随机的令牌子集作为上下文来增加任务的难度,并修改注意力层,使得只有上下文令牌被用作键和值。此时Transformer不仅需要对上下文令牌排序,而且还需要通过查询上下文来推断掩码令牌的位置。该方法称为掩码补丁位置预测(Masked Patch Position Prediction, MP3)。
视觉Transformer采用ViT,将图像划分为给定大小(例如16 × 16)的非重叠块。然后对所有图像块进行共享权重的线性投影以获得图像标记序列。标记向量与它们各自的位置编码加性地组合以形成输入序列。然后应用标准的自注意层来处理输入序列。
在预训练阶段,从所有patch表示中去除位置嵌入。然后随机选择$1 - η$比例的patch作为“上下文patch”,在自注意力层中,只有上下文patch参与键矩阵和值矩阵的计算,对所有patch计算查询矩阵。在最后一个注意力层之后附加一个线性预测头,以形成patch位置的预测分布。
在微调阶段,移除位置预测头部,并在“cls”标记后附加一个线性分类器头部(视下游任务而定)。将随机初始化的位置嵌入应用于patch嵌入,并将随机屏蔽的自注意力层恢复。
作者在不同$η$的验证集上测量了位置预测的精度。当$η = 0$时,Transformer几乎可以完美地完成任务。$η = 0.75$导致整体精度下降,在高掩蔽比时验证精度保持良好,这表明仅在输入的patch中就有足够的信息来恢复它们对应的位置信息。
下图展示了训练时$η = 0.75$的模型,在测试时改变$η$值。对于每个测试$η$,生成一组随机的上下文补丁,并展示具有预测位置的重建图像。即使在整体精度不高的情况下,该模型也可以进行合理的重建。这表明该模型可以通过一个小的无位置的输入patch子集来学习有效地推理底层目标。