探索无监督视觉表示学习中的像素级一致性.
本文提出了一种像素级的对比学习方法。对于一幅图像中的目标,分别选取两个子图像,则两个图像中对应同一个目标位置的像素可以看作正样本对。
基于此作者设计了两种对比学习方法。一种是采用MoCo的流程,通过编码器构造查询像素$x$的查询表示$x_i$,通过滑动平均更新的矩编码器构造键表示$x_j$,所构造损失函数称为PixContrast损失:
\[\mathcal{L}_{\text{PixContrast}}(i) = -\log \frac{\sum_{j \in \mathcal{P}_i} \exp(x_i \cdot x_j'/\tau)}{\sum_{j \in \mathcal{P}_i} \exp(x_i \cdot x_j'/\tau)+\sum_{k \in \mathcal{N}_i} \exp(x_i \cdot x_k'/\tau)}\]另一种采用BYOL的流程,通过一个网络根据查询表示$x_i$预测键表示$x_j$,所构造损失函数称为PixPro损失:
\[\mathcal{L}_{\text{PixPro}} = -\cos(y_i,x_j')-\cos(y_j,x_i')\]其中用于特征预测的Pixel Propagation Module设计如下。