BiT:用于迁移学习的预训练卷积神经网络模型.
- TAPAS: Big Transfer (BiT): General Visual Representation Learning
- arXiv:link
模型介绍
作者提出了一个预训练的卷积神经网络模型:BiT,可用于迁移学习解决计算机视觉任务。
下图是模型在不同图像分类数据集上的表现,注意到即使限制每一类训练图像的数量(1到100),模型也具有不错的表现。
按照训练集的大小,作者训练了三种模型,其中前两种预训练参数已开源:
- BiT-S:训练在ILSVRC-2012数据集上,共1.3 million张;
- BiT-M:训练在ImageNet-21k数据集上,共1.4 million张;
- BiT-L:训练在JFT-300M数据集上,共300 million张
受限于训练样本,模型在自然图像上的表现最好,在结构化任务(如目标检测)中与其余模型相差并不是很大:
预训练 Upstream Pre-Training
作者提出了两个训练重点:
- 模型复杂度和训练集大小
- 组归一化和权重标准化
(1)scale
通过实验发现:
- 增加模型复杂度和训练集大小都能够提高分类准确率;
- 在大数据集上,模型复杂度的提升对结果的影响更大;
- 二者只提高其一可能会损害模型的表现。
(2) Group Normalization(GN) and Weight Standardization(WS)
作者在模型中使用了:
- Group Normalization (GN)
- Weight Standardization (WS)
迁移 Transfer to Downstream Tasks
作者提出了一种迁移模型时超参数的选择方法:BiT-HyperRule。(详见论文3.3节)