通过对比预测编码实现数据高效的图像识别.

本文提出把Contrastive Predictive Coding (CPC)应用到图像数据集中,使用一个编码卷积网络$f_{\theta}(\cdot)$把输入图像$x$的每个图像块压缩为潜在表示$z_{i,j}=f_{\theta}(x_{i,j})$,然后使用一个掩码卷积网络$g_{\phi}(\cdot)$从潜在表示中学习高级上下文特征$c_{i,j}=g_{\phi}(z_{\leq i,\leq j})$,并通过上下文特征$c$预测潜在表示\(\hat{z}_{i+k,j} = W_kc_{i,j}\)。

CPC构造的InfoNCE损失旨在正确地区分预测目标,而负样本$z_l$来自其他图像块或其他图像:

\[\begin{aligned} \mathcal{L}_N &= - \sum_{i,j,k} \log p(z_{i+k,j}|\hat{z}_{i+k,j},\{z_l\}) \\&= - \sum_{i,j,k} \log\frac{\exp(\hat{z}_{i+k,j}^Tz_{i+k,j})}{\exp(\hat{z}_{i+k,j}^Tz_{i+k,j}) + \sum_l \exp(\hat{z}_{i+k,j}^Tz_{l})} \end{aligned}\]

在此基础上,本文通过一系列技巧改进CPC,取得更好的自监督学习表现: