Synthesizer:使用合成注意力的Transformer模型.

Transformer模型中使用了自注意力机制机制,即对于输入$X$,分别使用querykeyvalue仿射变换得到$Q(X)$、$K(X)$、$G(X)$,再通过querykey的交互实现自注意力分布$B=K(X)Q(X)$,最后计算输出结果$Y=\text{Softmax}(B)G(X)$。

作者提出了合成注意力(synthetic attention)机制的想法,即不引入仿射变换$Q(X)$和$K(X)$,而是直接对输入$X$进行变换得到自注意力分布$B=F(X)$。

Synthesizer包含以下几种形式:

上述五种方法的对比如下:

作者在机器翻译任务上进行试验,证明在该任务上合成注意力机制可以取代传统的自注意力机制,并且达到类似的效果。将两者结合使用时效果会更好:

作者在自动摘要和对话生成任务上进行试验,在自动摘要任务上标准注意力效果比较好,但是对话生成任务上标准注意力是最差的。这说明不同的注意力各有优势。

作者还进行了预训练+微调的实验。微调后相比标准自注意力,DenseRandom效果差一些,这表明它们也许在单一任务上表现不错,但迁移能力比较弱。但是DenseRandom带来的计算效率是显著提升的。