半监督学习的插值一致性训练.

插值一致性训练(Interpolation Consistency Training, ICT)旨在通过增加样本点的更多插值结果来增强数据集,并使得模型对数据插值具有一致性预测结果。具体地,通过mixup构造插值样本,并构造预测结果的插值作为学习目标:

\[\begin{aligned} x_m &= \text{Mix}_{\lambda}(x_i,x_j) = \lambda x_i + (1-\lambda) x_j \\ y_m &= \text{Mix}_{\lambda}(f_{\theta}(x_i),f_{\theta}(x_j)) = \lambda f_{\theta}(x_i) + (1-\lambda) f_{\theta}(x_j) \end{aligned}\]

则无监督损失构造为插值样本的预测结果和预测结果的插值之间的差异:

\[\mathcal{L}_u^{ICT} = \sum_{(x_i,x_j) \in \mathcal{D}} \text{MSE}(f_{\theta}(\lambda x_i + (1-\lambda) x_j),\lambda f_{\theta'}(x_i) + (1-\lambda) f_{\theta'}(x_j))\]

其中$\theta’$是$\theta$的滑动平均值。

通常在数据集中随机采样的两个样本属于不同类别的概率很高(比如ImageNet共有$1000$个类别),因此两个样本的插值倾向于出现在数据分布的低密度区域。通过ICT训练的模型得到的决策边界也通常落在特征空间的低密度区域,这将更好地反映未标记数据的结构。