BLIP-2:使用冻结图像编码器和大语言模型的引导式语言-图像预训练.
0. TL; DR
BLIP-2 是一种高效的视觉语言预训练方法,通过利用现成的冻结预训练图像编码器和大型语言模型(LLM),显著降低了预训练成本。BLIP-2 通过一个轻量级的 Querying Transformer(Q-Former)桥接视觉和语言模态,分为两个阶段进行预训练:第一阶段从冻结的图像编码器中引导视觉语言表示学习;第二阶段从冻结的 LLM 中引导视觉到语言的生成学习。BLIP-2 在多个视觉语言任务上取得了 SOTA 性能,同时在零样本学习场景下展现出强大的能力。
1. 背景介绍
视觉语言预训练(VLP)近年来取得了显著进展,但随着模型规模的增大,预训练成本也急剧上升。大多数现有的 VLP 方法采用端到端训练,这不仅计算成本高昂,而且难以利用现有的单模态预训练模型(如大型语言模型和图像编码器)。为了降低计算成本并充分利用这些单模态模型,BLIP-2 提出了一种新的预训练策略,通过冻结的图像编码器和 LLM 来引导视觉语言学习。
2. BLIP-2 模型
BLIP-2 的核心是一个轻量级的 Querying Transformer(Q-Former),它通过一组可学习的查询向量从冻结的图像编码器中提取视觉特征。Q-Former 作为图像编码器和 LLM 之间的信息瓶颈,将最有用的视觉信息传递给 LLM,从而减少 LLM 学习视觉语言对齐的负担。
Q-Former 包含两个 Transformer 子模块:
- 图像 Transformer:与冻结的图像编码器交互,提取视觉特征。
- 文本 Transformer:既可以作为文本编码器,也可以作为文本解码器。
Q-Former 的输出是一个固定数量的查询向量,这些向量通过一个全连接层投影到与 LLM 输入维度相同的特征空间中。
BLIP-2 的预训练分为两个阶段:
① 视觉语言表示学习阶段:
- 图像-文本对比学习(ITC):通过对比学习对齐图像和文本特征。
- 图像引导的文本生成(ITG):训练 Q-Former 生成文本,给定输入图像。
- 图像-文本匹配(ITM):学习图像和文本之间的细粒度对齐。
② 视觉到语言生成学习阶段:
将 Q-Former 的输出连接到冻结的 LLM,训练 Q-Former 使其输出的视觉特征能够被 LLM 解释。
3. 实验分析
BLIP-2 在多个视觉语言任务上进行了评估,包括:
- 视觉问答(VQA):使用 VQAv2 数据集,评估指标为准确率。
- 图像标题生成:使用 COCO 和 NoCaps 数据集,评估指标为 BLEU@4、CIDEr 和 SPICE。
- 图像-文本检索:使用 COCO 和 Flickr30K 数据集,评估指标为 Recall@1、Recall@5 和 Recall@10。
主要实验结果:
- 视觉问答:BLIP-2 在 VQAv2 数据集上取得了 65.0% 的准确率,显著优于 Flamingo80B(56.3%),尽管 BLIP-2 的可训练参数少了 54 倍。
- 图像标题生成:BLIP-2 在 NoCaps 数据集上取得了 121.6 的 CIDEr 分数,展现出强大的泛化能力。
- 图像-文本检索:BLIP-2 在 Flickr30K 数据集上取得了 SOTA 性能,Recall@1 分别达到了 TR 97.6% 和 IR 89.7%。
BLIP-2 能够根据自然语言指令生成图像描述,展现出多种能力,包括视觉知识推理、视觉常识推理、视觉对话等。