VinVL: Revisiting Visual Representations in Vision-Language Models

VinVL：重新回归视觉语言模型中的视觉表示.

paper：VinVL: Revisiting Visual Representations in Vision-Language Models

0. TL; DR

本文提出了一种名为VinVL的视觉语言（VL）预训练模型，通过改进目标检测模型来提供更丰富的图像视觉表示。与广泛使用的自底向上和自顶向下的模型相比，VinVL更大、更适合VL任务，并且在更大的训练数据集上进行了预训练。实验结果表明，VinVL在多个VL任务上取得了新的最佳性能，包括视觉问答（VQA）、图像描述生成和视觉推理等任务。

1. 背景介绍

视觉语言预训练（VLP）在多种视觉语言（VL）任务中已被证明是有效的，如视觉问答（VQA）、图像描述生成和视觉推理等。VLP通常分为两个阶段：首先，使用目标检测模型对图像及其视觉目标进行编码；其次，使用跨模态融合模型将文本和视觉特征进行融合。尽管现有的VLP研究主要集中在改进跨模态融合模型上，但本文关注于改进目标检测模型，以提供更丰富的视觉特征。

2. VinVL 模型

VinVL的核心是改进目标检测模型，以提供更丰富的视觉目标和概念的表示。VinVL基于ResNeXt-152 C4架构，使用四个公共目标检测数据集（COCO、OpenImages、Objects365和Visual Genome）进行预训练，这些数据集在目标类别、数据规模和注释数量上具有互补性。这些数据集提供了更丰富的视觉目标和属性类别，使得VinVL能够生成更丰富的视觉特征。

VinVL选择C4架构而不是FPN架构，因为C4在VL任务中表现更好。C4架构的所有层都使用ImageNet预训练权重，而FPN的MLP头没有。此外，C4的卷积头在编码视觉信息方面比FPN的MLP头具有更好的归纳偏差。

VinVL使用改进的Oscar模型进行预训练，以学习图像和文本的联合表示。OSCAR+在预训练阶段使用掩码标记损失（Masked Token Loss）和三元组对比损失（3-way Contrastive Loss）。

掩码标记损失与BERT中的掩码语言模型类似，用于预测被掩码的标记。在OSCAR+中，掩码标记损失应用于图像描述和目标标签的标记上。
三元组对比损失用于优化VQA和文本-图像匹配任务的目标。它通过构造污染的“描述”和“答案”来生成负样本，并使用全连接层预测三元组是否匹配。

3. 实验分析

VinVL在多个VL任务上进行了评估，包括VQA、GQA、NLVR2、COCO图像描述生成、NoCaps、COCO文本-图像检索和NLVR2。这些任务涵盖了VL理解任务和VL生成任务。

主要实验结果：

VQA：VinVL在VQA v2.0数据集上取得了76.12%的准确率，超越了之前的最佳模型（73.67%）。
GQA：VinVL在GQA数据集上取得了64.65%的准确率，首次超越了专门设计的神经状态机（NSM）模型（61.62%）。
图像描述生成：在COCO图像描述生成任务上，VinVL取得了140.6的CIDEr分数，超越了之前的最佳模型（137.6）。
NoCaps：在NoCaps任务上，VinVL取得了92.46的CIDEr分数，超越了人类表现。
文本-图像检索：在COCO文本-图像检索任务上，VinVL在IR和TR上分别取得了58.1和74.6的R@1分数，超越了之前的最佳模型。
NLVR2：在NLVR2任务上，VinVL取得了83.08%的准确率，超越了之前的最佳模型（81.47%）。