探讨语言模型预训练中的双向性.

0. TL; DR

本文深入探讨了语言模型预训练中双向性的作用,提出了一个统一框架来研究不同双向性配置在多种任务中的表现。研究发现,双向性在文本填充和微调任务中非常有益,但在下一个词预测和零样本启动任务中效果不佳。此外,模型规模的扩大并未改变这些趋势,表明双向性的作用与应用场景密切相关。这些发现为未来语言模型的设计和优化提供了重要参考。

1. 背景介绍

自然语言处理(NLP)领域近年来经历了由预训练模型驱动的范式转变。像GPTBERT这样的预训练模型在无监督学习中表现出色,并且可以通过微调或少样本启动来适应下游任务。然而,这些模型在架构和学习目标上存在差异,使得它们之间的比较变得困难。本文聚焦于双向性这一关键因素,研究其在不同任务中的作用,并提出了一个新框架来统一不同的预训练方法。

2. 方法介绍

本文提出的框架能够同时支持单向和双向注意力机制,并且可以灵活地调整双向性在上下文和注意力中的权重。具体来说,框架通过以下参数来控制双向性:

基于上述参数,本文探索了六种不同的模型变体,涵盖了从完全单向(如GPT)到完全双向(如BERT)的各种情况,还包括混合模型(如CM3和前缀语言模型)。这些变体在训练过程中通过不同的参数配置来实现,从而研究双向性在不同任务中的作用。

3. 实验分析

实验涵盖了多种模型规模(从125M6.7B参数)和四种不同的任务设置:语言建模、文本填充、零样本启动和微调。所有模型均在相同的语料库上进行训练,并使用相同的BPE编码。