GPT3:预训练语言模型.

作者训练了一个非常大的预训练语言模型GPT3。其最大参数量可达1750亿。模型继承了GPT2的结构,使用了更深的层数和更多的自注意力头数:

训练是在庞大的语料库上进行的,训练集如下:

通常预训练模型对于不同的任务会进行微调,微调过程如下(以机器翻译为例):

而作者应用GPT3模型并没有微调,而是尝试了三种任务:

  1. zero-shot:输入问题描述,输出答案:
  2. one-shot:输入一个问题和答案的例子,再输入一个问题,输出答案:
  3. few-shot:输入一些问题和答案的例子,再输入一个问题,输出答案:

作者在大量的NLP任务上进行实验,通过实验发现预训练后没有微调的GPT3可以达到甚至超过经过微调的BERT等模型的实验结果。