VisualBERT:一个简单有效的视觉语言基线.

0. TL; DR

VisualBERT是一种简单而灵活的框架,用于建模广泛的视觉与语言任务。它基于Transformer架构,通过自注意力机制隐式对齐输入文本和图像区域。VisualBERT通过在图像字幕数据上进行预训练,学习文本和视觉之间的关联,并在视觉问答(VQA)、视觉常识推理(VCR)、自然语言视觉推理(NLVR2)和区域到短语对齐(Flickr30K)等任务上取得了与现有最先进的模型相当或更好的性能。此外,VisualBERT能够无需显式监督即可将语言元素与图像区域对齐,并对语法关系敏感。

1. 背景介绍

结合视觉和自然语言的任务是评估视觉信息处理系统推理能力的测试基准。这些任务不仅要求系统识别图像中存在的目标,还需要理解图像的详细语义,包括目标、属性、部分、空间关系、动作和意图,以及这些概念如何在自然语言中被提及和对齐。

近年来,视觉与语言任务(如图像字幕生成、视觉问答和视觉推理)受到了广泛关注,各种模型被开发出来以解决这些问题。这些模型通常包括文本编码器、图像特征提取器、多模态融合模块(通常使用注意力机制)和答案分类器。然而,这些模型大多针对特定任务设计,而VisualBERT则是一个通用模型,可以轻松适应新任务或集成到其他特定任务的模型中。

2. VisualBERT 模型

VisualBERT的核心是一个基于Transformer的模型,它通过自注意力机制隐式对齐输入文本和图像区域。VisualBERTBERT的基础上进行了扩展,以处理图像和文本的联合输入。

具体来说,除了BERT的文本嵌入外,VisualBERT引入了一组视觉嵌入用于表示图像。每个视觉嵌入对应于图像中的一个边界框区域,由目标检测器提取。视觉嵌入由以下三部分组成:

这些视觉嵌入与文本嵌入一起输入到多层Transformer中,允许模型隐式发现输入之间的有用对齐关系,并构建新的联合表示。

VisualBERT的训练过程包括三个阶段:

3. 实验分析

VisualBERT在以下四个视觉与语言任务上进行了评估:

主要实验结果:

VisualBERT能够通过注意力机制隐式地将语言元素与图像区域对齐,并且对语法关系敏感。例如,模型能够从动词到其对应的图像区域进行对齐,这表明VisualBERT能够捕捉到语言和视觉之间的复杂关系。