BiT:用于迁移学习的预训练卷积神经网络模型.

模型介绍

作者提出了一个预训练的卷积神经网络模型:BiT,可用于迁移学习解决计算机视觉任务。

下图是模型在不同图像分类数据集上的表现,注意到即使限制每一类训练图像的数量(1到100),模型也具有不错的表现。

按照训练集的大小,作者训练了三种模型,其中前两种预训练参数已开源:

受限于训练样本,模型在自然图像上的表现最好,在结构化任务(如目标检测)中与其余模型相差并不是很大:

预训练 Upstream Pre-Training

作者提出了两个训练重点:

  1. 模型复杂度和训练集大小
  2. 组归一化和权重标准化

(1)scale

通过实验发现:

(2) Group Normalization(GN) and Weight Standardization(WS)

作者在模型中使用了:

迁移 Transfer to Downstream Tasks

作者提出了一种迁移模型时超参数的选择方法:BiT-HyperRule。(详见论文3.3节)