GPT3:语言模型是少样本学习器.

0. TL; DR

本文介绍了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,展示了其在少样本学习(few-shot learning)场景下的强大能力。GPT-3 在多种自然语言处理任务中表现出色,包括翻译、问答、完型填空等,甚至在某些任务上接近或超越了微调(fine-tuning)的最先进模型。研究还发现,模型的性能随着参数规模的增加而提升,且在生成新闻文章等任务上,人类难以区分其输出与人类写作的内容。此外,文章还探讨了模型在数据污染(data contamination)问题上的表现,并对模型的偏见、公平性和能源使用等问题进行了讨论。

1. 背景介绍

近年来,自然语言处理(NLP)领域取得了显著进展,主要得益于预训练语言模型的发展。这些模型通过在大规模文本数据上进行无监督学习,学习语言的通用表示,然后在特定任务上进行微调,以实现高性能。然而,这种方法需要大量的标注数据和计算资源。此外,这些模型在面对新任务时,往往需要针对每个任务单独进行微调,缺乏灵活性和泛化能力。

与现有的 NLP 系统不同,人类在学习新语言任务时,通常只需要少量的示例或简单的指令即可快速掌握。这种能力使得人类能够灵活地适应多种语言任务,而无需为每个任务准备大量的标注数据。因此,研究者们希望构建一种能够像人类一样进行少样本学习的语言模型,以提高模型的泛化能力和适应性。

本文的目标是探索通过大规模预训练语言模型来实现少样本学习的可能性。具体来说,研究者们训练了一个拥有 1750 亿参数的自回归语言模型 GPT-3,并在多种 NLP 任务上测试其少样本学习能力。这些任务包括语言建模、问答、翻译、完型填空等,涵盖了从简单到复杂的多种语言任务。

2. GPT-3模型

GPT-3 基于 Transformer 架构,与 GPT-2 类似,但进行了扩展以支持更大的模型规模。GPT-3 使用了交替的密集和局部带状稀疏注意力模式,以提高计算效率和模型容量。

GPT-3 的训练数据主要来自 Common Crawl,经过过滤和去重处理,以确保数据质量。此外,还加入了 WebText2、Books1、Books2Wikipedia 等高质量数据集,以增加数据的多样性和代表性。最终的训练数据总量约为 45TB,经过过滤后约为 570GB。训练集如下:

通常预训练模型对于不同的任务会进行微调。为了评估 GPT-3 的少样本学习能力,作者应用GPT3模型并没有微调,而是设计了零样本(zero-shot)、单样本(one-shot)和少样本(few-shot)三种评估设置:

  1. zero-shot:模型仅根据自然语言指令执行任务,输入问题描述,输出答案:
  2. one-shot:模型参考一个示例后执行任务,输入一个问题和答案的例子,再输入一个问题,输出答案:
  3. few-shot:模型参考多个示例后执行任务,输入一些问题和答案的例子,再输入一个问题,输出答案:

3. 实验分析

作者在大量的NLP任务上进行实验(语言建模任务、问答任务、翻译任务、完型填空任务、常识推理任务、阅读理解任务),通过实验发现预训练后没有微调的GPT3可以达到甚至超过经过微调的BERT等模型的实验结果。

研究者们对 GPT-3 的训练数据进行了数据污染分析,发现尽管存在一定的数据污染,但其对模型性能的影响较小。例如,在 PIQA 数据集上,尽管有 29% 的数据与训练数据重叠,但模型的性能仅下降了 4%。这表明 GPT-3 对数据污染具有一定的鲁棒性。

研究发现,随着模型规模的增加,GPT-3 在少样本学习任务上的性能显著提升。例如,在算术任务中,1750 亿参数的 GPT-3 能够准确完成 2 位数加法和减法,而 130 亿参数的模型仅能达到 50% 的准确率。这表明模型规模对少样本学习能力有重要影响。

GPT-3 在生成新闻文章时表现出色,人类难以区分其生成的文章与人类写作的内容。在一项实验中,人类评估者在识别 GPT-3 生成的新闻文章时的准确率仅为 52%,接近随机猜测的水平。这表明 GPT-3 在文本生成任务上具有很高的质量。