BLIP-2:使用冻结图像编码器和大语言模型的引导式语言-图像预训练.

0. TL; DR

BLIP-2 是一种高效的视觉语言预训练方法,通过利用现成的冻结预训练图像编码器和大型语言模型(LLM),显著降低了预训练成本。BLIP-2 通过一个轻量级的 Querying Transformer(Q-Former)桥接视觉和语言模态,分为两个阶段进行预训练:第一阶段从冻结的图像编码器中引导视觉语言表示学习;第二阶段从冻结的 LLM 中引导视觉到语言的生成学习。BLIP-2 在多个视觉语言任务上取得了 SOTA 性能,同时在零样本学习场景下展现出强大的能力。

1. 背景介绍

视觉语言预训练(VLP)近年来取得了显著进展,但随着模型规模的增大,预训练成本也急剧上升。大多数现有的 VLP 方法采用端到端训练,这不仅计算成本高昂,而且难以利用现有的单模态预训练模型(如大型语言模型和图像编码器)。为了降低计算成本并充分利用这些单模态模型,BLIP-2 提出了一种新的预训练策略,通过冻结的图像编码器和 LLM 来引导视觉语言学习。

2. BLIP-2 模型

BLIP-2 的核心是一个轻量级的 Querying Transformer(Q-Former),它通过一组可学习的查询向量从冻结的图像编码器中提取视觉特征。Q-Former 作为图像编码器和 LLM 之间的信息瓶颈,将最有用的视觉信息传递给 LLM,从而减少 LLM 学习视觉语言对齐的负担。

Q-Former 包含两个 Transformer 子模块:

Q-Former 的输出是一个固定数量的查询向量,这些向量通过一个全连接层投影到与 LLM 输入维度相同的特征空间中。

BLIP-2 的预训练分为两个阶段:

① 视觉语言表示学习阶段:

② 视觉到语言生成学习阶段:

Q-Former 的输出连接到冻结的 LLM,训练 Q-Former 使其输出的视觉特征能够被 LLM 解释。

3. 实验分析

BLIP-2 在多个视觉语言任务上进行了评估,包括:

主要实验结果:

BLIP-2 能够根据自然语言指令生成图像描述,展现出多种能力,包括视觉知识推理、视觉常识推理、视觉对话等。