SCAN: Learning to Classify Images without Labels

SCAN：一种自监督图像分类方法.

作者提出了一种自监督的图像分类方法，将其拆分成特征学习（feature learning）和聚类（clustering）两个步骤。

feature learning

作者首先通过特征学习的方法对网络进行预训练，用于从图像中提取出图像特征。目前主流的自监督方法是表示学习（representation learning）。

作者通过对图像$X$进行一系列变换$T$（如旋转），让网络对原图像和变换后的图像输出的特征足够接近，从而实现图像特征的学习。若记网络$Φ$的参数为$θ$，则这一步的目标是：

\[\mathop{\min}_{θ} d(Φ_θ(X_i),Φ_θ(T[X_i]))\]

使用该过程训练得到的网络参数作为初始化参数，进一步进行下面的步骤。

对于每一张图像$X$的特征，在经过预训练网络的特征空间中寻找最近邻的$k$个特征，通过调整网络使得图像$X$的特征与这最近邻的$k$个特征内积最大（即相似度最高）。同时通过聚类给图像$X$一个伪分类标签$c$，通过调整网络最大化图像特征属于该类别的概率。这一步的损失函数为：

算法流程如下：