LXMERT:学习Transformer中的跨模态编码表示.

0. TL; DR

LXMERT是一种用于学习视觉与语言之间联系的框架。它通过构建一个包含三个编码器(目标关系编码器、语言编码器和跨模态编码器)的大规模Transformer模型,并通过五个预训练任务(掩码语言建模、掩码目标预测、跨模态匹配和图像问答)学习视觉和语言之间的对齐关系。LXMERT在视觉问答(VQAGQA)和视觉推理(NLVR2)任务上均取得了最先进的结果,并通过详细的消融研究证明了其模型组件和预训练策略的有效性。

1. 背景介绍

视觉与语言推理需要理解视觉概念、语言语义以及两者之间的对齐和关系。尽管在单一模态(视觉或语言)的模型开发方面已经取得了显著进展,但针对视觉与语言模态对的预训练和微调研究仍处于发展阶段。LXMERT框架旨在填补这一空白,通过构建一个能够理解视觉和语言交互的预训练模型,为视觉问答、视觉推理等任务提供更强大的基础。

2. LXMERT模型

LXMERT框架的核心是一个包含三个编码器的Transformer模型:目标关系编码器、语言编码器和跨模态编码器。这些编码器通过自注意力和交叉注意力层实现视觉和语言的深度融合。

LXMERT将输入(图像和句子)转换为两个序列:单词级别的句子嵌入和目标级别的图像嵌入:

得到的文本和图像特征序列,文本序列在开始处添加特殊的$[CLS]$ token,然后分别通过目标关系编码器和语言编码器提取特征,再通过跨模态编码器交换特征信息。

LXMERT通过五个预训练任务学习视觉与语言之间的联系:

3. 实验分析

LXMERT在三个主要数据集上进行了评估:

主要实验结果:

此外,作者还进行了一系列消融实验: