Unifying Vision-and-Language Tasks via Text Generation

通过文本生成统一视觉和语言任务.

paper：Unifying Vision-and-Language Tasks via Text Generation

0. TL; DR

本文提出了一种统一的框架，通过文本生成的方式解决视觉-语言任务。该框架基于T5和BART预训练语言模型，通过扩展其文本编码器以包含图像区域嵌入，将多种视觉-语言任务（如视觉问答、指代表达理解、图像描述生成等）统一为多模态条件文本生成任务。在7个流行的视觉-语言基准测试中，该方法达到了与任务特定的最新模型相当的性能，并且在多任务学习设置下，使用单一架构和参数集实现了与单独优化的单任务模型相似的性能。

1. 背景介绍

视觉-语言学习通常需要为每个任务设计特定的架构和目标。例如，视觉问答（VQA）需要一个多标签答案分类器，指代表达理解需要一个区域评分器，图像描述生成需要一个语言解码器等。这些任务所需的推理技能有显著重叠，且其标签都可以用文本轻松表达。然而，现有的方法通常需要为每个预训练或下游任务设计特定的架构，这增加了任务的复杂性。

为了简化这一过程，本文提出了一种统一的框架，通过文本生成的方式解决不同的视觉-语言任务。该框架基于预训练的语言模型T5和BART，通过扩展其文本编码器以包含图像区域嵌入，将所有任务统一为多模态条件文本生成任务。

2. 模型介绍

本文提出的框架将视觉和语言问题统一为多模态条件文本生成任务。基于两个预训练的Transformer语言模型T5Base和BARTBase，分别扩展为VL-T5和VL-BART。具体来说，通过将图像区域嵌入作为额外输入，扩展了它们的文本编码器。整体架构如图所示。

输入图像$v$通过Faster R-CNN模型表示为$n=36$个目标区域，该模型在Visual Genome数据集上训练，用于目标和属性分类。每个图像区域编码为四种特征的和：(i) RoI目标特征；(ii) RoI边界框坐标；(iii) 图像id；(iv) 区域id。RoI特征和边界框坐标通过线性层编码，而图像id和区域id通过学习嵌入编码。图像id用于区分不同图像的区域，区域id用于标记特定区域。

为了适应不同任务，作者在原始输入文本前添加不同的前缀。例如，对于视觉问答任务，输入文本为“vqa: [问题]”，对于指代表达理解任务，输入文本为“visual grounding: [指代表达]”。这些增强后的输入文本被标记化并编码为学习嵌入。

使用Transformer编码器-解码器架构编码视觉和文本输入，并生成标签文本。双向多模态编码器由多个Transformer块组成，每个块包含自注意力层和全连接层。解码器与编码器类似，但每个块额外包含一个交叉注意力层。编码器将文本和视觉嵌入的连接作为输入，并输出它们的上下文化联合表示。然后，解码器迭代地关注之前生成的token和编码器输出，并预测未来文本token的概率。

预训练在多任务设置下进行，包括多模态语言建模、视觉问答、图像-文本匹配、视觉定位和基于区域的描述生成等任务。这些任务的输入和输出格式如表所示。

多模态语言建模：对于VL-T5，随机掩盖15%的输入文本token，并用[TEXT_i]替换连续文本片段。对于VL-BART，随机掩盖30%的输入文本token，并用[Mask]标记替换。然后预测被掩盖的文本。
视觉问答：直接生成问题的答案文本，而不是将其视为预定义答案候选集上的分类任务。
图像-文本匹配：模型需要验证文本是否对应于图像。将图像及其标题视为正样本对，以50%的概率随机采样另一个训练图像的标题以创建负样本对。模型预测对应关系为“true”或“false”。
视觉定位：给定区域描述，模型预测相关目标区域的id，这使得任务自然地符合文本生成目标。
基于区域的描述生成：给定目标区域的id（表示图像区域）作为文本输入，模型生成该图像区域的文本描述。

3. 实验分析

预训练数据从MS COCO和Visual Genome图像中聚合而来。这些数据集的标题用于多模态语言建模任务，COCO标题还用于图像-文本匹配任务。此外，还使用了三个视觉问答数据集（VQA v2.0、GQA平衡版本和Visual7W）作为预训练任务。预训练数据集包含9.18M图像-文本对，覆盖180K不同的图像。

主要实验结果：

视觉问答（VQA和GQA）：VL-T5和VL-BART在VQA和GQA任务上达到了与现有方法相当的性能。与基于分类的方法相比，生成式方法在开放性问题上表现更好，尤其是在训练中未见过的答案上。实验表明，生成式模型在开放性问题上的性能比基于分类的模型高出6-6.2个百分点。
自然语言视觉推理（NLVR2）：NLVR2任务要求模型判断自然语言陈述是否适用于两幅图像。VL-T5在最简单的编码设置（Triplet）下与UNITER模型表现相当，但在更复杂的编码设置（Pair和Pair-biattn）下仍有差距。
指代表达理解（RefCOCOg）：在RefCOCOg数据集上，VL-T5达到了与UNITER模型相当的性能，尽管未达到最佳性能，但表明指代表达理解可以有效地表述为文本生成任务。
视觉常识推理（VCR）：VCR任务要求模型进行常识推理以选择正确答案和理由。VL-T5在经过第二阶段领域预训练后，达到了与UNITER模型相当的性能。
图像描述生成（COCO Captioning）：在COCO Captioning任务上，VL-T5和VL-BART达到了与现有方法相当的性能。实验表明，使用目标标签作为额外文本输入可以显著提升性能。
多模态机器翻译（Multi30K En-De）：在Multi30K数据集上，VL-T5和VL-BART在多模态机器翻译任务上优于现有方法，尽管未观察到视觉-语言预训练带来的显著提升。

在多任务微调设置下，VL-T5使用单一架构和参数集同时训练7个任务，达到了与单独优化的单任务模型相当的性能。这表明该框架可以有效地进行多任务学习。