超越模仿游戏:量化和推断语言模型的能力.
0. TL; DR
本文介绍了 Beyond the Imitation Game benchmark(BIG-bench),这是一个包含 204 项任务的大型基准测试,旨在量化和预测语言模型的能力。研究发现,随着模型规模的增加,语言模型的性能和校准能力均有所提升,但在绝对性能上仍远低于人类水平。此外,模型在处理社会偏见时表现出复杂的行为,且在非英语任务上的表现较差。BIG-bench 为理解语言模型的当前能力和未来潜力提供了重要工具。
1. 背景介绍
语言模型的核心能力是生成文本序列的最可能延续,这一能力在多种认知任务中具有广泛应用。随着模型规模的扩大和训练数据的增加,语言模型的性能在可预测的方式上得到了提升。例如,模型在测试集上的交叉熵随着模型大小、训练数据量和训练计算量的增加而呈幂律下降。这种可预测的改进促使研究人员将语言模型的规模扩展到万亿参数级别,预计未来几年模型规模还将继续增长。
现有的语言模型基准测试存在局限性,主要体现在以下几个方面:
- 范围受限:许多基准测试仅针对语言模型已经表现出一定能力的特定领域,如语言理解、总结或琐事问答,难以发现模型在规模扩大时可能发展的新能力。
- 生命周期短:这些基准测试通常在短时间内被模型超越,随后被新的基准测试取代或扩展。
- 数据标注问题:许多基准测试的数据是通过非专家或非任务作者进行标注的,这可能导致任务难度降低,影响结果的可解释性。
鉴于语言模型的潜在变革性影响和现有基准测试的局限性,作者引入了 BIG-bench。该基准测试包含 204 项任务,涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等多个领域。这些任务旨在超越当前语言模型的能力,通过评估模型在这些任务上的表现,作者可以更好地预测语言模型的未来行为。
2. 方法介绍
BIG-bench 提供了一个高级且框架无关的语言模型表示方法,支持两种类型的任务:JSON 任务和程序化任务。
- JSON 任务:通过 JSON 文件定义,包含输入和目标的示例列表。性能通过标准指标(如 ROUGE)或模型分配的概率来评估。
- 程序化任务:使用 Python 编写,可以直接与模型进行多轮查询,并使用自定义指标评估性能。
为了降低完整评估的成本,作者开发了一个轻量级的子集 BIG-bench Lite,包含 24 个 JSON 任务,这些任务涵盖了 BIG-bench 的多样性和难度。
作者评估了 OpenAI 的 GPT 模型、Google 内部的密集 Transformer 架构和 Switch 风格的稀疏 Transformer 模型。这些模型的参数范围从数百万到数千亿不等。此外,作者还邀请了一组人类专家对所有任务进行了评估,以提供强大的基线。
3. 实验分析
3.1 模型性能与人类表现
作者发现,随着模型规模的增加,模型性能有所提升,但在绝对性能上仍远低于人类水平。具体来说,模型在 BIG-bench 上的平均性能随着模型规模的增加而提高,但即使是最大的模型,其性能也仅为人类评分的 20% 左右。
3.2 模型预测的校准
模型预测的校准能力随着模型规模的增加而提高。作者通过计算模型在多选任务上的 Brier 分数和预期校准误差(ECE)来量化模型的校准能力。结果显示,尽管模型的校准能力有所提高,但仍然存在较大的校准误差。
3.3 不同模型类别的表现
不同模型类别(如密集模型和稀疏模型)在性能上表现出相似性,但稀疏模型在固定计算量的情况下表现更好。此外,GPT 模型在较小规模时表现更好,而在最大规模时表现稍差。
3.4 性能的线性与突破性
作者引入了两个指标来量化任务的性能变化:
- 线性(L):衡量性能随模型规模的可靠提升程度。
- 突破性(B):衡量模型在达到某个临界规模后才学会任务的程度。
结果显示,依赖知识和简单文本操作的任务表现出较高的线性,而涉及多步骤推理的任务则表现出较高的突破性。
3.5 模型的脆弱性
尽管语言模型在某些任务上表现出色,但在其他任务上却表现出脆弱性。例如,模型在处理多选题时,当选项包含在输入中时,性能会下降。此外,模型在处理因果判断任务时,对任务表述的敏感性也表明了其脆弱性。
3.6 社会偏见
在社会偏见方面,作者发现模型在具有广泛或模糊上下文的环境中,其偏见随着模型规模的增加而增加。然而,在具有狭窄、明确上下文的环境中,偏见可以减少。此外,通过适当的提示,可以改善模型的偏见表现。
3.7 非英语语言的表现
在非英语任务上,模型的表现通常较差,尤其是低资源语言任务。例如,在涉及斯瓦希里语的谚语任务中,即使模型规模增加,性能也未见明显提升。