Contrastive Multiview Coding - 郑之杰的个人网站

对比多视角编码.

paper：Contrastive Multiview Coding

人类观察世界是通过多个传感器，比如眼睛或者耳朵相当于不同的传感器来给大脑提供不同的信号；每一个视角提供的信号都是带有噪声的，而且有可能是不完整的；重要的信息是在所有的这些视角中共享，比如基础的物理定律、几何形状或者语义信息是共享的。

本文作者提出了一种学习具有视角不变性的特征的方法，通过增大所有视角之间的互信息实现多模态对比学习。本文选用NYU RGBD数据集，包含四个模态的输入数据(原始图像、深度图、加速度计数据、分割图像)。虽然这些不同的输入来自于不同的传感器模态，但是所有的输入对应的都是同一个区域，它们互为正样本，在特征空间中就应该非常接近。

对于样本$x$的$M$种不同的模态，可构造任意两种模态之间的对比损失：

\[\mathcal{L}^{(i,j)}_{\text{CMC}} = -\log \frac{\exp(f(v_i)^Tf(v_j)/\tau)}{\sum_{k}\exp(f(v_i)^Tf(v_j^k)/\tau)} -\log \frac{\exp(f(v_j)^Tf(v_i)/\tau)}{\sum_{k}\exp(f(v_j)^Tf(v_i^k)/\tau)}\]