Big Bird:一种应用于长序列的Transformer模型.

基于Transformer的模型使用注意力机制处理文本数据。若输入序列具有$n$个tokens,则每一层full attention的计算复杂度为$O(n^2)$(每一个token都需要和所有tokens交互),将随着序列长度成平方增长。

Big Bird没有使用full attention,而是结合了三种attention机制,将单层的计算复杂度减少为$O(n)$。其所使用的注意力机制包括:

  1. Random attention:每一个token随机地和一些tokens交互,当限制最大交互数量时,计算复杂度为$O(n)$;
  2. Window attention:每一个token和自身附近的若干个tokens交互,当限制最大交互数量时,计算复杂度为$O(n)$;
  3. Global attention:选择一些全局非常重要的tokens(如第一个token代表$[CLS]$),这些tokens与所有tokens交互;其余tokens只与被选择的tokens交互,计算复杂度为$O(n)$。

尽管每一层tokens的交互是有限的,当层数足够多时,可以实现任意两个tokens之间的交互。相比于full attentionBig Bird用增加深度的方法减少了每一层的计算量,使得可以处理更长的文本序列。

Big Bird仍然具有Universal ApproximatorTuring Completeness的性质。