0. TL; DR

本文探讨了基于Transformer的大型神经序列模型在上下文学习（ICL）中的表现，特别是这些模型是否隐式地实现了标准的学习算法。研究通过线性回归问题作为原型，提供了三方面的证据，表明Transformer能够实现基于梯度下降和闭式岭回归的学习算法。实验结果表明，训练有素的上下文学习者与通过梯度下降、岭回归和精确最小二乘回归计算的预测器非常接近，并且随着Transformer深度和数据集噪声的变化，它们在不同的预测器之间转换，当宽度和深度较大时收敛到贝叶斯估计器。此外，初步证据表明，上下文学习者与这些预测器共享算法特征，即学习者的后期层非线性地编码权重向量和时刻矩阵。

1. 背景介绍

上下文学习（ICL）是近年来大型神经序列模型（如Transformer）表现出的一种能力，即模型能够从输入中提供的标记示例序列构建新的预测器，而无需进一步更新模型参数。这种学习方式在少样本学习问题和大型语言模型中都有所体现。尽管ICL在多种任务上表现优异，但其具体的学习机制尚不清楚。

本文旨在探讨Transformer是否隐式地实现了标准的学习算法，即模型是否通过其激活中编码的较小模型来实现ICL，并在处理上下文示例时更新这些隐式模型。研究聚焦于线性回归问题，这是一个在机器学习和统计估计中被广泛研究的简单问题，为理解ICL提供了理想的测试平台。

线性回归问题是机器学习中的一个经典问题，目标是找到一个线性函数 $f(x) = w^\top x$，使得预测值 $f(x)$ 与真实值 $y$ 之间的平方误差最小化。具体来说，给定输入 $X$ 和输出 $Y$，最小化的目标函数为：

\[\text{minimize} \quad \sum_i (w^\top x_i - y_i)^2 + \lambda \|w\|^2_2\]

其中，$\lambda$ 是正则化参数。当 $\lambda = 0$ 时，这是普通最小二乘回归（OLS）；当 $\lambda > 0$ 时，这是岭回归（Ridge Regression）。

2. 方法介绍

为了训练Transformer模型进行ICL，作者定义一个函数类 $F$，一个分布 $p(f)$ 支持在 $F$ 上，一个输入域上的分布 $p(x)$，以及一个损失函数 $L$。目标是最小化自回归目标：

\[\text{minimize}_\theta \mathbb{E}_{x_1, \ldots, x_n \sim p(x), f \sim p(f)} \left[ \sum_{i=1}^n L(f(x_i), T_\theta([x_1, f(x_1), \ldots, x_i])) \right]\]

实验比较了Transformer与多种标准学习算法（如普通最小二乘回归、岭回归、随机梯度下降等）的预测性能。结果显示，Transformer的预测与普通最小二乘回归非常接近，而与其他预测器的差异较大。

实验进一步探讨了Transformer在噪声数据集上的表现。结果显示，Transformer的行为与贝叶斯最小风险预测器非常接近，尤其是在数据噪声和先验方差变化时。

实验还探讨了模型深度和隐藏大小对Transformer表现的影响。结果显示，模型深度和隐藏大小的变化会导致Transformer在不同的学习算法之间转换，表现出算法的“相变”。

实验还探讨了Transformer是否能够编码标准学习算法中计算的中间量。通过训练辅助探针模型，结果显示Transformer能够非线性地编码权重向量和时刻矩阵。