GPT3:预训练语言模型.
- paper:Language Models are Few-Shot Learners
- arXiv:link
作者训练了一个非常大的预训练语言模型GPT3。其最大参数量可达1750亿。模型继承了GPT2的结构,使用了更深的层数和更多的自注意力头数:
训练是在庞大的语料库上进行的,训练集如下:
通常预训练模型对于不同的任务会进行微调,微调过程如下(以机器翻译为例):
而作者应用GPT3模型并没有微调,而是尝试了三种任务:
- zero-shot:输入问题描述,输出答案:
- one-shot:输入一个问题和答案的例子,再输入一个问题,输出答案:
- few-shot:输入一些问题和答案的例子,再输入一个问题,输出答案:
作者在大量的NLP任务上进行实验,通过实验发现预训练后没有微调的GPT3可以达到甚至超过经过微调的BERT等模型的实验结果。