Barlow Twins:通过冗余度消除实现自监督学习.
Barlow Twins把数据样本的两个增强版本喂入同一个神经网络以提取特征表示,并使得两组输出特征的互相关矩阵(cross-correlation matrix)接近单位矩阵。该目标使得同一个样本的不同增强版本对应的特征向量相似,并最小化这些向量之间的冗余度。
记任意样本$x$的两次数据增强结果为$x_i,x_j$,对应的特征向量为$z_i,z_j$,则一批样本的特征向量对应的互相关矩阵\(\mathcal{C}\)中的元素计算为:
\[\mathcal{C}_{ij} = \frac{\sum_bz^A_{b,i}z^B_{b,j}}{\sqrt{\sum_b(z_{b,i}^A)^2}\sqrt{\sum_b(z^B_{b,j})^2}}\]Barlow Twins的损失函数构造为:
\[\mathcal{L}_{\text{BT}} = \sum_i (1-\mathcal{C}_{ii})^2 + \lambda \sum_i \sum_{j\neq i} \mathcal{C}_{ij}^2\]Barlow Twins在自监督学习领域与一些SOTA方法具有竞争力,但并未达到当时的最高水平。
通过实验证明,Barlow Twins对批量大小的设置具有鲁棒性。
此外实验表明Barlow Twins对特征映射头的映射维度比较敏感,需要更大的特征头以获得较好的性能。