VLMo:使用模态混合专家的统一视觉语言预训练.

0. TL; DR

本文介绍了一种名为VLMo(Vision-Language pre-trained Model)的统一视觉-语言预训练模型。VLMo通过引入Mixture-of-Modality-Experts(MOME)Transformer架构,联合学习了双编码器和融合编码器,能够在视觉-语言分类任务中作为融合编码器使用,在检索任务中作为双编码器使用。此外,VLMo采用了分阶段预训练策略,利用大规模的纯图像和纯文本数据,显著提升了模型的泛化能力。实验结果表明,VLMo在多个视觉-语言任务上均取得了最先进的性能。

1. 背景介绍

视觉-语言(Vision-Language,VL)预训练的目标是从大规模的图像-文本对中学习通用的跨模态表示。这些预训练模型通常通过图像-文本匹配、对比学习、掩码区域分类等任务来聚合和对齐视觉和语言信息。预训练完成后,模型可以直接在下游的视觉-语言任务上进行微调,如视觉问答(VQA)、视觉推理等。

现有的VL预训练模型主要分为两大类:双编码器架构和融合编码器架构。双编码器架构(如CLIPALIGN)分别对图像和文本进行编码,通过计算图像和文本特征向量的余弦相似性来实现模态间的交互。这种架构在检索任务中表现出色,但对于复杂的VL分类任务,其浅层的模态交互能力不足。另一类融合编码器架构(如ViLT)通过多层Transformer网络融合图像和文本表示,虽然在分类任务上表现优异,但在检索任务中由于需要联合编码所有可能的图像-文本对,导致推理速度较慢。

为了结合两种架构的优势,本文提出了VLMo模型。VLMo通过MOME Transformer实现了对不同模态(图像、文本和图像-文本对)的编码,能够在预训练阶段灵活切换为双编码器或融合编码器,从而在检索和分类任务中均表现出色。

2. VLMo 模型

VLMo的核心是MOME Transformer,它通过引入模态专家池来替代标准Transformer中的前馈网络(FFN)。MOME Transformer包含三种模态专家:视觉专家(V-FFN)、语言专家(L-FFN)和视觉-语言专家(VL-FFN)。视觉专家用于编码图像,语言专家用于编码文本,而视觉-语言专家则用于处理图像-文本对,以捕捉更深层次的模态交互。

MOME Transformer的计算过程如下:

\[H_l^′=MSA(LN(H_{l-1}))+H_{l-1}\] \[H_l=MoME-FFN(LN(H_l^′))+H_l^′\]

其中,MoME-FFN会根据输入是纯图像、纯文本还是图像-文本对,分别选择V-FFNL-FFNVL-FFN进行处理。

VLMo通过以下三种预训练任务联合优化:

VLMo采用了分阶段预训练策略,充分利用大规模的纯图像和纯文本数据:

3. 实验分析

VLMo在多个视觉-语言任务上进行了评估,包括视觉问答(VQA)、自然语言视觉推理(NLVR2)、图像-文本检索等。

VQANLVR2任务上,VLMo取得了最先进的性能。例如,在NLVR2任务上,VLMo-Large模型达到了86.86%的准确率,显著优于其他同类模型。

COCOFlickr30K数据集上,VLMo作为双编码器使用,展现了与融合编码器模型相当的性能,同时推理速度更快。例如,在Flickr30K数据集上,VLMo-Large模型的文本检索R@1指标达到了95.3%,图像检索R@1指标达到了84.5%