重新思考演示的作用：什么导致上下文学习有效？

paper：Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

0. TL; DR

本文探讨了大型语言模型（LLMs）在上下文学习（in-context learning）中的表现，发现模型并不依赖于演示中的真实标签来完成任务。研究表明，即使将演示中的标签替换为随机标签，模型的性能也只是略有下降。这表明模型可能通过预训练阶段学习到的输入-标签对应关系来完成任务，而不是依赖于演示中的具体标签。研究还发现，演示中的其他方面，如输入文本的分布和标签空间，对模型性能有显著影响。

1. 背景介绍

近年来，大型语言模型（LLMs）在自然语言处理（NLP）领域取得了显著进展。这些模型通过上下文学习（in-context learning）在新任务上表现出色，即通过推理而非微调来完成任务。上下文学习通过将训练数据作为演示（demonstrations）提供给模型，使其能够通过推理来学习新任务。尽管上下文学习在多种任务上表现优异，但对其工作原理的理解仍然有限。

上下文学习的关键在于演示，即模型在推理时所依赖的输入-标签对。然而，这些演示中的真实标签是否对模型性能至关重要，目前尚不清楚。本文旨在探讨演示在上下文学习中的作用，特别是真实标签与随机标签对模型性能的影响。

2. 方法介绍

上下文学习是指模型通过推理而非微调来完成新任务。具体来说，模型在推理时会依赖于一系列输入-标签对（演示），并根据这些演示来预测新输入的标签。

本文通过对比使用真实标签和随机标签的演示对模型性能的影响来探究演示的作用。实验设计如下：

无演示（Zero-shot）：模型仅通过预训练阶段学习到的知识进行推理，不依赖任何演示。
真实标签演示（Gold Labels）：模型使用包含真实标签的演示进行推理。
随机标签演示（Random Labels）：模型使用包含随机标签的演示进行推理。

实验使用了12个不同的模型，包括GPT-3家族的模型，以及MetaICL等。实验数据集涵盖了情感分析、语义相似性检测、自然语言推理等多个任务。

实验使用以下指标进行评估：

分类任务：使用宏平均F1分数（Macro-F1）。
选择题任务：使用准确率（Accuracy）。

3. 实验分析

实验结果显示，使用随机标签的演示对模型性能的影响非常小。具体来说，模型在使用随机标签时的性能仅比使用真实标签时下降了1%到5%。这一结果表明，模型并不依赖于演示中的真实标签来完成任务。

为了研究上下文学习为何有用，作者对将训练数据作为演示中的三个关键方面进行了分析：输入的分布、标签空间、格式。

演示中输入文本的分布对模型性能的影响：使用与训练数据分布不同的输入文本（即OOD输入）会显著降低模型性能。这表明输入文本的分布对模型性能有重要影响。
标签空间对模型性能的影响：即使使用随机英文单词，只要标签空间与任务相关，模型性能仍然较高。这表明标签空间对模型性能有重要影响。
输入-标签配对的格式对模型性能的影响：保留输入-标签配对的格式对模型性能至关重要。如果移除这种格式，模型性能会显著下降。