对比多视角编码.
人类观察世界是通过多个传感器,比如眼睛或者耳朵相当于不同的传感器来给大脑提供不同的信号;每一个视角提供的信号都是带有噪声的,而且有可能是不完整的;重要的信息是在所有的这些视角中共享,比如基础的物理定律、几何形状或者语义信息是共享的。
本文作者提出了一种学习具有视角不变性的特征的方法,通过增大所有视角之间的互信息实现多模态对比学习。本文选用NYU RGBD数据集,包含四个模态的输入数据(原始图像、深度图、加速度计数据、分割图像)。虽然这些不同的输入来自于不同的传感器模态,但是所有的输入对应的都是同一个区域,它们互为正样本,在特征空间中就应该非常接近。
对于样本$x$的$M$种不同的模态,可构造任意两种模态之间的对比损失:
\[\mathcal{L}^{(i,j)}_{\text{CMC}} = -\log \frac{\exp(f(v_i)^Tf(v_j)/\tau)}{\sum_{k}\exp(f(v_i)^Tf(v_j^k)/\tau)} -\log \frac{\exp(f(v_j)^Tf(v_i)/\tau)}{\sum_{k}\exp(f(v_j)^Tf(v_i^k)/\tau)}\]