Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

通过超球面上的对齐和一致性理解对比表示学习.

paper：Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

本文提出了对比学习损失的两种性质：对齐性(Alignment)和一致性(Uniformity)；并提出了衡量这两种性质的评价指标；通过优化这两个指标学到的特征在下游任务上表现更好。

对比学习是指使得相似的样本具有相近的特征表示，不相似的样本具有不同的特征表示。给定数据分布$p_{data}(\cdot)$和正样本对分布$p_{pos}(\cdot,\cdot)$，这两个分布应该满足：

对称性(Symmetry)：$\forall x,x^+，p_{pos}(x,x^+)=p_{pos}(x^+,x)$
匹配边缘分布(Matching marginal)：$\forall x,\int p_{pos}(x,x^+)dx^+ = p_{data}(x)$

神经网络$f(x)$学习到的特征向量经过L2归一化，相当于分布在单位超球面上；此时内积$f(x_1)^Tf(x_2)$等价于余弦相似度；对应的对比损失定义如下：

\[\mathcal{L}_{contrastive} = \Bbb{E}_{(x,x^+)\text{~}p_{pos},\{x_i^-\}_{i=1}^M\text{~}p_{data}} [-\log \frac{\exp(f(x)^Tf(x^+)/\tau)}{\exp(f(x)^Tf(x^+)/\tau)+\sum_{i=1}^{M}\exp(f(x)^Tf(x^-_i)/\tau)}]\]

对比学习中通常负样本的数量远大于正样本，则上式可以写作：

\[\begin{aligned} \mathcal{L}_{contrastive} &= \Bbb{E}_{(x,x^+)\text{~}p_{pos},\{x_i^-\}_{i=1}^M\text{~}p_{data}} [- f(x)^Tf(x^+)/\tau + \log (\exp(f(x)^Tf(x^+)/\tau)+\sum_{i=1}^{M}\exp(f(x)^Tf(x^-_i)/\tau))] \\ &\approx \Bbb{E}_{(x,x^+)\text{~}p_{pos},\{x_i^-\}_{i=1}^M\text{~}p_{data}} [- f(x)^Tf(x^+)/\tau + \log (\sum_{i=1}^{M}\exp(f(x)^Tf(x^-_i)/\tau))] \\ &= -\frac{1}{\tau} \Bbb{E}_{(x,x^+)\text{~}p_{pos}}[f(x)^Tf(x^+)] + \Bbb{E}_{x\text{~}p_{data}}[\log \Bbb{E}_{x^-\text{~}p_{data}}[\sum_{i=1}^{M}\exp(f(x)^Tf(x^-_i)/\tau)]] \end{aligned}\]

上式中第一项为对齐性(Alignment)，用于衡量正样本对之间的相似程度；第二项为一致性(Uniformity)，用于衡量归一化的特征在超球面上分布的均匀性。

让特征分布在单位超球面上，能够提高训练的稳定性，并且使得不同类别的特征被很好的聚类，在整个特征空间上类别是更容易被线性可分。

基于对比损失的分解，作者重新设计了量化对齐性(Alignment)和一致性(Uniformity)的损失函数。对齐性采用欧氏距离衡量，一致性采用高斯势核函数衡量：

\[\begin{aligned} \mathcal{L}_{align}(f;\alpha) &= \Bbb{E}_{(x,y)\text{~}p_{pos}} [||f(x)-f(y)||_2^{\alpha}] \\ \mathcal{L}_{uniform}(f;t) &= \log \Bbb{E}_{(x,y)\text{~}p_{data}} [e^{-t||f(x)-f(y)||_2^2}] \end{aligned}\]

采用高斯核的损失形式更简单，不需要做softmax计算，并且无监督训练的特征分布更加均匀。

使用Pytorch实现上述损失的计算：

实验结果表明，两个损失越小，相应的下游任务的效果越好。

对两个损失的权重分析如下：