MixMatch:一种半监督学习的整体方法.

MixMatch是一种为半监督学习设计的数据处理方法。给定标注数据集\(\mathcal{X}\)和未标注数据集\(\mathcal{U}\),MixMatch结合以下方法:

  1. 一致性正则化(Consistency regularization):鼓励模型对被干扰的未标注数据预测相同的输出,指定每个样本的增强数量$K$;
  2. 熵最小化(Entropy minimization):鼓励模型对未标注数据预测置信度高的输出,通过指定softmax中的温度系数$T$实现;
  3. MixUp增强:鼓励模型学习样本对的线性组合,引入混合系数$\alpha$。

MixMatch对数据集\((\mathcal{X},\mathcal{U})\)进行增强,并以此构造监督损失和无监督损失:

\[\begin{aligned} \overline{\mathcal{X}},\overline{\mathcal{U}} &= \text{MixMatch}(\mathcal{X},\mathcal{U},T,K,\alpha) \\ \mathcal{L}_s^{MM} &= \frac{1}{|\overline{\mathcal{X}}|} \sum_{(\overline{x},y) \in \overline{\mathcal{X}}} D[y,f_{\theta}(\overline{x})] \\ \mathcal{L}_u^{MM} &= \frac{1}{C|\overline{\mathcal{U}}|} \sum_{(\overline{u},\hat{y}) \in \overline{\mathcal{U}}} ||\hat{y},f_{\theta}(\overline{u})||_2^2 \end{aligned}\]

对于每个无标签样本$u$,MixMatch生成$K$种数据增强的样本\(\overline{u}^{(k)},k=1,...,K\),然后通过预测结果的平均构造伪标签:

\[\hat{y} = \frac{1}{K} \sum_{k=1}^K f_{\theta}(\overline{u}^{(k)})\]

MixMatch的完整流程如下:

消融实验表明对未标注数据应用MixUp至关重要,此外应用多个增强结果的平均构造伪标签和为伪标签分布引入温度系数也很重要。