通过上下文预测实现无监督视觉表示学习.
本文提出一种通过预测图像中两个随机图像块之间的相对位置来进行无监督视觉表示学习的方法,模型需要理解目标的空间上下文才能成功地预测目标不同部位之间的相对位置。
随机在图像中选取一个图像块;然后考虑以该图像块为中心的$3\times 3$网格,随机选择其$8$个邻域图像块中的一个;则自监督学习的前置任务是预测第二个图像块属于哪个邻域的八分类任务。
为了防止模型只捕捉包含低级语义的平凡特征,比如通过边界连线或匹配局部模式,在图像块中添加额外噪声:
- 在图像块之间引入间隔;
- 引入较小的图像抖动;
- 随机把图像块下采样到$100$个像素,再进行上采样恢复原始大小,以建立对像素化(pixelation)的鲁棒性;
- 将绿色和品红色转换为灰色或随机丢弃$3$个颜色通道中的$2$个。
在实验中除了像边界图案或纹理连续性这种平凡的特征之外,还发现了模型另一个有趣的平凡解,称为“色差”(chromatic aberration)。色差是由不同波长的光穿过透镜时具有不同的焦距导致的。色差会导致颜色通道之间存在较小的偏移。因此模型可以通过简单地比较绿色和品红色在两个色块中的分离方式来判断它们的相对位置。因此通过将绿色和品红色转换为灰色或随机丢弃颜色通道可以避免这种平凡的解决方案。
实现上述过程的模型设计如下,虚线部分表示权重共享: