MASS:序列到序列的掩码语言建模.
- paper:MASS: Masked Sequence to Sequence Pre-training for Language Generation
- arXiv:link
本文提出了一种预训练方法:Masked Sequence to Sequence,即对输入序列随机mask掉连续的$k$个token,然后通过编码器-解码器结构预测这些token。
这种预训练方法的主要优点是:
- 解码器的输入中不预测的token被mask掉,促使解码器从编码器中提取更有效的信息;
- 编码器中预测的token被mask掉,提高编码器对序列文本的理解能力;
- 预测连续的token,提高解码器的语言建模能力。
该方法中的超参数$k$表示mask掉的连续token长度,通过调整$k$的大小,MASS可以等效成其他预训练模型,即MASS是一种通用的预训练语言模型。
- 当$k=1$时,编码器端mask掉一个token,解码器预测一个token,解码器没有任何输入信息,此时等价于BERT中的预训练任务(自编码式的MLM)。
- 当$k=$序列长度时,编码器端mask掉所有token,解码器预测所有token,编码器没有任何输入信息,此时等价于GPT中的预训练任务(自回归式的LM)。
实验表明当$k$设置为序列长度的一半时能够较好的平衡编码器和解码器的预训练,防止训练过度偏向编码器$k<n/2$或解码器$k>n/2$。