ALBERT:一种轻量型的BERT模型.

ALBERT是在BERT的基础上设计的一个轻量化预训练语言模型,相比于BERTALBERT做了如下改进:

ALBERT中的参数共享是一种模型正则化方法,能够有效防止模型过拟合,但也会限制模型的表达能力。参数共享使得ALBERT的参数量大大减小,模型训练时间和显存也会减少。由于参数共享的存在,ALBERT并没有使用dropout

BERTALBERT的结构对比如下表所示:

BERTALBERT的实验结果对比如下表所示。在同样的规格下(比如都是base),尽管ALBERT具有更小的参数量,但BERTALBERT的前向传播计算复杂度是类似的,甚至ALBERT还多一个矩阵运算。因此同样的模型规格下,ALBERT的推理时间并不占优势。当模型规模较小时,ALBERT的表现比BERT差,只有当ALBERT规格特别大时才能够超过BERT