0. TL; DR

本文介绍了 Beyond the Imitation Game benchmark（BIG-bench），这是一个包含 204 项任务的大型基准测试，旨在量化和预测语言模型的能力。研究发现，随着模型规模的增加，语言模型的性能和校准能力均有所提升，但在绝对性能上仍远低于人类水平。此外，模型在处理社会偏见时表现出复杂的行为，且在非英语任务上的表现较差。BIG-bench 为理解语言模型的当前能力和未来潜力提供了重要工具。

1. 背景介绍

语言模型的核心能力是生成文本序列的最可能延续，这一能力在多种认知任务中具有广泛应用。随着模型规模的扩大和训练数据的增加，语言模型的性能在可预测的方式上得到了提升。例如，模型在测试集上的交叉熵随着模型大小、训练数据量和训练计算量的增加而呈幂律下降。这种可预测的改进促使研究人员将语言模型的规模扩展到万亿参数级别，预计未来几年模型规模还将继续增长。

现有的语言模型基准测试存在局限性，主要体现在以下几个方面：

范围受限：许多基准测试仅针对语言模型已经表现出一定能力的特定领域，如语言理解、总结或琐事问答，难以发现模型在规模扩大时可能发展的新能力。
生命周期短：这些基准测试通常在短时间内被模型超越，随后被新的基准测试取代或扩展。
数据标注问题：许多基准测试的数据是通过非专家或非任务作者进行标注的，这可能导致任务难度降低，影响结果的可解释性。

鉴于语言模型的潜在变革性影响和现有基准测试的局限性，作者引入了 BIG-bench。该基准测试包含 204 项任务，涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等多个领域。这些任务旨在超越当前语言模型的能力，通过评估模型在这些任务上的表现，作者可以更好地预测语言模型的未来行为。

2. 方法介绍

BIG-bench 提供了一个高级且框架无关的语言模型表示方法，支持两种类型的任务：JSON 任务和程序化任务。

JSON 任务：通过 JSON 文件定义，包含输入和目标的示例列表。性能通过标准指标（如 ROUGE）或模型分配的概率来评估。
程序化任务：使用 Python 编写，可以直接与模型进行多轮查询，并使用自定义指标评估性能。

为了降低完整评估的成本，作者开发了一个轻量级的子集 BIG-bench Lite，包含 24 个 JSON 任务，这些任务涵盖了 BIG-bench 的多样性和难度。

作者评估了 OpenAI 的 GPT 模型、Google 内部的密集 Transformer 架构和 Switch 风格的稀疏 Transformer 模型。这些模型的参数范围从数百万到数千亿不等。此外，作者还邀请了一组人类专家对所有任务进行了评估，以提供强大的基线。