Barlow Twins: Self-Supervised Learning via Redundancy Reduction

Barlow Twins：通过冗余度消除实现自监督学习.

Barlow Twins把数据样本的两个增强版本喂入同一个神经网络以提取特征表示，并使得两组输出特征的互相关矩阵(cross-correlation matrix)接近单位矩阵。该目标使得同一个样本的不同增强版本对应的特征向量相似，并最小化这些向量之间的冗余度。

记任意样本$x$的两次数据增强结果为$x_i,x_j$，对应的特征向量为$z_i,z_j$，则一批样本的特征向量对应的互相关矩阵$\mathcal{C}$中的元素计算为:

\[\mathcal{C}_{ij} = \frac{\sum_bz^A_{b,i}z^B_{b,j}}{\sqrt{\sum_b(z_{b,i}^A)^2}\sqrt{\sum_b(z^B_{b,j})^2}}\]

Barlow Twins的损失函数构造为：

\[\mathcal{L}_{\text{BT}} = \sum_i (1-\mathcal{C}_{ii})^2 + \lambda \sum_i \sum_{j\neq i} \mathcal{C}_{ij}^2\]

Barlow Twins在自监督学习领域与一些SOTA方法具有竞争力，但并未达到当时的最高水平。

通过实验证明，Barlow Twins对批量大小的设置具有鲁棒性。

此外实验表明Barlow Twins对特征映射头的映射维度比较敏感，需要更大的特征头以获得较好的性能。