冻结语言模型的多模态少样本学习.
0. TL; DR
本文提出了一种名为“Frozen”的多模态少样本学习方法,通过将图像编码为预训练语言模型的词嵌入序列,使模型能够在仅通过少量示例提示的情况下快速适应新的视觉-语言任务。该方法在多个基准测试中展示了强大的零样本和少样本学习能力,包括视觉问答(VQA)、图像分类和知识问答等任务。
1. 背景介绍
近年来,自回归语言模型(如Transformer架构)在自然语言处理领域取得了显著进展,尤其是在少样本学习方面表现出色。这些模型能够在仅通过少量示例提示的情况下快速适应新的语言任务。然而,这些模型通常仅限于处理文本模态,无法直接应用于视觉任务。为了克服这一限制,本文提出了一种方法,通过将图像编码为语言模型能够理解的嵌入序列,使语言模型能够处理视觉和语言的多模态任务。
2. 模型介绍
本文使用了一个基于Transformer架构的预训练自回归语言模型,该模型通过最大似然估计在大规模文本数据上进行预训练。模型参数量为70亿,使用SentencePiece分词器将文本分解为离散token序列。语言模型通过嵌入函数将每个token转换为连续嵌入,并通过Transformer网络生成文本序列。
视觉编码器基于NF-ResNet-50架构,将输入图像编码为连续嵌入序列。具体来说,视觉编码器的输出通过线性映射转换为与语言模型嵌入维度相同的序列,称为“视觉前缀”。这些视觉前缀在Transformer架构中扮演与文本token嵌入相同的功能角色。
在训练过程中,仅更新视觉编码器的参数,而语言模型的参数保持不变(即“冻结”)。通过将图像嵌入作为前缀输入到语言模型中,模型能够生成与图像相关的文本(如标题)。训练目标是最大化给定图像的标题生成概率:
\[\log p_{\theta,\phi}(y|x)=\sum_{l}\log p_{\theta,\phi}(y_{l}|x,y_{1},y_{2},\ldots,y_{l-1})\]其中,$y$ 是标题文本,$x$ 是输入图像,$θ$ 是语言模型的参数,$ϕ$ 是视觉编码器的参数。
在推理阶段,用户可以通过将图像嵌入与文本嵌入交错排列,形成多模态提示序列。例如,模型可以处理零样本视觉问答(VQA)、少样本视觉问答和少样本图像分类等任务。具体来说:
- 零样本VQA:模型直接根据图像和问题生成答案。
- 少样本VQA:模型通过少量示例(图像-问题-答案三元组)进行学习,然后生成答案。
- 少样本图像分类:模型通过少量示例学习新类别的名称,然后对新图像进行分类。
3. 实验分析
本文使用了Conceptual Captions数据集进行训练,该数据集包含约300万图像-标题对。此外,还使用了VQAv2、OKVQA、miniImageNet和Visual Genome等数据集进行评估。
在零样本和少样本学习任务中,Frozen模型展示了强大的泛化能力。例如,在VQAv2数据集上,Frozen模型在零样本设置下的准确率为29.5%,在提供4个示例后,准确率提升至38.2%。这表明Frozen模型能够通过少量示例快速适应新的任务。
在OKVQA数据集上,Frozen模型展示了其利用预训练语言模型中的知识进行视觉问答的能力。使用70亿参数的语言模型,Frozen在零样本设置下的准确率为5.9%,在提供4个示例后,准确率提升至12.6%。这表明Frozen能够结合视觉信息和语言知识来回答问题。
在miniImageNet任务中,Frozen模型展示了其快速绑定新视觉类别和名称的能力。在2-way任务中,模型在提供3个示例后,准确率达到57.9%。这表明Frozen能够在少量示例的情况下快速学习新类别的名称并进行分类。