VL-BEiT:生成式视觉-语言预训练.

0. TL; DR

本文提出了一个名为VL-BEiT的视觉-语言基础模型,通过在图像、文本和图像-文本对上进行掩码预测任务实现多模态预训练。VL-BEiT使用统一的双向Transformer架构,通过掩码语言建模(MLM)、掩码图像建模(MIM)和掩码视觉-语言建模(MVLM)三种任务进行预训练。实验结果表明,VL-BEiT在视觉问答、视觉推理和图像-文本检索等视觉-语言任务上表现出色,同时在图像分类和语义分割等视觉任务上也取得了竞争力的结果。

1. 背景介绍

近年来,生成式预训练在自然语言处理(NLP)和计算机视觉(CV)领域取得了巨大成功。例如,BERT通过掩码语言建模(MLM)学习文本表示,BEIT通过掩码图像建模(MIM)学习图像表示。然而,现有的多模态预训练方法大多依赖于复杂的对比学习目标或多种预训练任务的组合,这限制了模型的扩展性和效率。

本文提出VL-BEiT,一个基于生成式预训练的视觉-语言基础模型。VL-BEiT的核心思想是通过一个统一的掩码预测任务,在单模态(图像和文本)和多模态(图像-文本对)数据上进行预训练。这种方法不仅简化了预训练过程,还使得模型能够高效地扩展到大规模数据。

2. VL-BEiT 模型

VL-BEiT通过掩码预测任务在单模态和多模态数据上进行预训练,使用共享的双向Transformer架构。VL-BEiT将图像和文本分别编码为序列化表示,然后将它们组合起来进行多模态建模:

VL-BEiT使用混合模态专家(Mixture-of-Modality-Experts, MOMETransformer作为骨干网络。MOME Transformer包含多个Transformer块,每个块包含一个跨模态共享的多头自注意力模块和一个模态专家池。这种设计允许模型在不同模态之间对齐内容,同时捕获模态特定的信息。

VL-BEiT通过以下三种掩码预测任务进行预训练,能够学习到强大的多模态表示:

3. 实验分析

VL-BEiT的预训练数据包括:

VL-BEiT在多个视觉-语言和视觉任务上取得了优异的性能:

VL-BEiT通过掩码预测任务有效地学习了多模态表示。实验结果表明,掩码视觉-语言建模(MVLM)对于多模态对齐至关重要。此外,MOME Transformer的设计使得模型能够更好地捕获模态特定的信息,从而提升性能。