ViLBERT:用于视觉和语言任务的无任务特定的视觉语言表示的预训练.

0. TL; DR

ViLBERT(Vision-and-Language BERT)是一种用于学习图像内容和自然语言联合表示的模型。它扩展了BERT架构,通过双流模型分别处理视觉和文本输入,并通过共注意力Transformer层进行交互。ViLBERT在大规模的Conceptual Captions数据集上进行预训练,并在多个视觉与语言任务(如视觉问答、视觉常识推理、指代表达和基于字幕的图像检索)上取得了最先进的性能。ViLBERT的成功表明,预训练视觉与语言的对齐关系是一种有效的策略,可以广泛应用于多种任务。

1. 背景介绍

视觉与语言任务的目标是让计算机能够通过自然语言生成或响应来展示其视觉理解能力。这些任务包括视觉问答(VQA)、视觉常识推理(VCR)、指代表达和基于字幕的图像检索等。尽管这些任务都需要将自然语言与视觉对齐,但目前的方法大多缺乏统一的基础来实现这种能力。现有的方法通常是先分别预训练语言和视觉模型,然后在任务训练中学习对齐关系,这可能导致在数据有限或有偏差的情况下泛化能力较差。

ViLBERT旨在通过预训练来学习视觉与语言的联合表示,从而为多种视觉与语言任务提供一个通用的视觉对齐模型。这种方法类似于自然语言处理中的BERT模型,通过在大规模数据上进行预训练,然后将预训练的模型迁移到特定任务上。

2. ViLBERT 模型

ViLBERT扩展了BERT模型,使其能够同时处理图像和文本输入。ViLBERT的核心是一个双流模型,包含两个并行的BERT风格的模型,分别处理图像区域和文本段落。这两个流通过共注意力Transformer层(Co-Attentional Transformer Layers)进行交互,允许两个模态之间的信息交换。

ViLBERT的双流架构包括:

ViLBERT通过两个预训练任务学习视觉与语言的联合表示:

3. 实验分析

ViLBERT在以下四个视觉与语言任务上进行了评估:

主要实验结果: