通过预测图像旋转角度实现无监督表示学习.

旋转整张图像是一种简单有效的图像增强方法,并且不改变输入图像的语义上下文信息。通过对输入图像随机地旋转四种不同的角度:\([0^{\circ},90^{\circ},180^{\circ},270^{\circ}]\),则自监督学习的前置任务是预测图像旋转哪种角度的四分类任务。

为了识别具有不同旋转角度的同一图像,模型必须学会识别图像的高级对象部分(如头部、鼻子和眼睛),以及这些部分的相对位置;而不是目标的局部模式。通过这种方式驱动模型学习对象的语义概念。

作者对旋转角度的取值进行了消融实验。结果表明只使用$2$个方向的旋转提供的可识别类别数量较少;$8$个方向的旋转导致几何变换的可分辨性较差,而且可能会导致旋转图像上的视觉伪影。

为了成功地预测图像的旋转,模型必须学习定位图像中的显著目标,识别它们的类型和方位,然后将旋转方向与原始图像进行关联。根据卷积层的每个空间单元的激活幅度计算注意力图,结果表明通过学习旋转角度,模型关注图像中的显著区域与监督模型大致相同: