MASS:序列到序列的掩码语言建模.

本文提出了一种预训练方法:Masked Sequence to Sequence,即对输入序列随机mask掉连续的$k$个token,然后通过编码器-解码器结构预测这些token

这种预训练方法的主要优点是:

该方法中的超参数$k$表示mask掉的连续token长度,通过调整$k$的大小,MASS可以等效成其他预训练模型,即MASS是一种通用的预训练语言模型。

实验表明当$k$设置为序列长度的一半时能够较好的平衡编码器和解码器的预训练,防止训练过度偏向编码器$k<n/2$或解码器$k>n/2$。