VinVL:重新回归视觉语言模型中的视觉表示.

0. TL; DR

本文提出了一种名为VinVL的视觉语言(VL)预训练模型,通过改进目标检测模型来提供更丰富的图像视觉表示。与广泛使用的自底向上和自顶向下的模型相比,VinVL更大、更适合VL任务,并且在更大的训练数据集上进行了预训练。实验结果表明,VinVL在多个VL任务上取得了新的最佳性能,包括视觉问答(VQA)、图像描述生成和视觉推理等任务。

1. 背景介绍

视觉语言预训练(VLP)在多种视觉语言(VL)任务中已被证明是有效的,如视觉问答(VQA)、图像描述生成和视觉推理等。VLP通常分为两个阶段:首先,使用目标检测模型对图像及其视觉目标进行编码;其次,使用跨模态融合模型将文本和视觉特征进行融合。尽管现有的VLP研究主要集中在改进跨模态融合模型上,但本文关注于改进目标检测模型,以提供更丰富的视觉特征。

2. VinVL 模型

VinVL的核心是改进目标检测模型,以提供更丰富的视觉目标和概念的表示。VinVL基于ResNeXt-152 C4架构,使用四个公共目标检测数据集(COCO、OpenImages、Objects365Visual Genome)进行预训练,这些数据集在目标类别、数据规模和注释数量上具有互补性。这些数据集提供了更丰富的视觉目标和属性类别,使得VinVL能够生成更丰富的视觉特征。

VinVL选择C4架构而不是FPN架构,因为C4VL任务中表现更好。C4架构的所有层都使用ImageNet预训练权重,而FPNMLP头没有。此外,C4的卷积头在编码视觉信息方面比FPNMLP头具有更好的归纳偏差。

VinVL使用改进的Oscar模型进行预训练,以学习图像和文本的联合表示。OSCAR+在预训练阶段使用掩码标记损失(Masked Token Loss)和三元组对比损失(3-way Contrastive Loss)。

3. 实验分析

VinVL在多个VL任务上进行了评估,包括VQA、GQA、NLVR2、COCO图像描述生成、NoCaps、COCO文本-图像检索和NLVR2。这些任务涵盖了VL理解任务和VL生成任务。

主要实验结果: