使用人类反馈训练语言模型遵循指令.

0. TL; DR

本文介绍了如何通过人类反馈微调语言模型,使其更好地遵循用户意图。研究者们通过收集人类标注的数据,使用监督学习和强化学习相结合的方法,训练了InstructGPT模型。实验表明,InstructGPT在多个任务上的表现优于GPT-3,尤其是在减少有害输出(如毒性内容)和提高真实性方面。尽管InstructGPT仍可能犯简单错误,但该研究表明,通过人类反馈微调是使语言模型更符合人类意图的有前景的方向。

1. 背景介绍

大型语言模型(LMs)在自然语言处理(NLP)任务中表现出色,但它们在生成输出时可能会产生不真实、有毒或对用户无帮助的内容。这些模型的训练目标(即预测网页上的下一个单词)与“帮助用户完成任务”的目标不同,导致模型行为与用户意图不一致。这种不一致性被称为“目标错位”。为了解决这一问题,研究者们提出了一种通过人类反馈微调语言模型的方法,以使模型的行为更符合用户意图。

具体来说,研究者们通过以下步骤实现这一目标:

  1. 收集标注数据:从OpenAI API的用户提交的提示中收集人类标注的演示数据,这些数据展示了期望的模型行为。
  2. 监督学习微调:使用这些标注数据对GPT-3进行监督学习微调,训练模型生成符合标注行为的输出。
  3. 强化学习微调:进一步收集模型输出的排名数据,并使用这些数据训练奖励模型(RM)。然后,通过强化学习(PPO算法)进一步微调模型,以最大化奖励模型的输出。

这种结合监督学习和强化学习的方法被称为“从人类反馈中进行强化学习”(RLHF),它利用人类偏好作为奖励信号来微调模型。通过这种方法,研究者们训练了InstructGPT模型,该模型在多个任务上表现出色,尤其是在减少有害输出和提高真实性方面。

2. 方法介绍

研究者们从OpenAI API收集提示制作了一个提示数据集。这些提示涵盖了多种自然语言任务,如生成、问答、对话、总结、提取等。并对这些提示进行了数据标注。

基于提示数据集,研究者们设计了以下三个步骤来训练InstructGPT模型:

2.1 监督学习微调(SFT)

研究者们使用标注者的演示数据对GPT-3进行监督学习微调。具体步骤如下:

2.2 奖励模型训练(RM)

奖励模型的目的是预测人类标注者更倾向于哪个输出。训练过程如下:

2.3 强化学习微调(PPO)

强化学习微调的目的是进一步优化模型,使其输出更符合人类标注者的偏好。具体步骤如下:

2.4 模型变体

研究者们还尝试了以下几种模型变体:

3. 实验分析

研究者们在多个数据集上评估了InstructGPT模型的性能,包括API提示分布和公共NLP数据集。主要评估指标包括:

在人类偏好评分方面,InstructGPT模型在人类偏好评分上显著优于GPT-3

在真实性评估方面,InstructGPTTruthfulQA数据集上的表现优于GPT-3,生成真实且信息量大的答案的频率是GPT-3的两倍。

在毒性评估方面,InstructGPT在生成毒性内容方面有所改善,但在某些情况下仍可能生成有害内容。