Transformer是状态空间模型: 通过结构化状态空间对偶实现通用模型和高效算法。

1. 状态空间对偶

结构化状态空间模型(Structured State Space Model, SSM)通过引入隐藏状态hh定义了从输入xx到输出yy的映射:

ht=Atht1+Btxtyt=Ctht

对于输入xP个特征可以独立地使用SSM,并且矩阵A可以简化为标量形式(即所有元素相同的对角矩阵),此时SSM记为:

Y(T,P)=SSM(A(T),B(T,N),C(T,N))(X(T,P))

或写成递推的形式:

y0=C0h0=C0B0x0y1=C1h1=C1A1B0x0+C1B1x1y2=C2h2=C2A2A1B0x0+C2A2B1x1+C2B2x2yT=CTATA1B0x0+CTATA2B1x1++CTATBT1+CTBTxT

基于此可以写出Y=MX对应的矩阵M

[C0B0C1A1B0C1B1C2A2A1B0C2A2B1C2B2CTATA1B0CTATA2B1CTATBT1CTBT]

注意到:

CiA×i:jBj=A×i:j(CiBj)

上式与因果线性注意力Y=(LQK)V是等价的。作者把它定义为状态空间对偶(State Space Duality, SSD),揭示了SSM和自注意力机制的相关性;与标准的softmax注意力相比,SSD有两个主要区别:

  1. (线性化)去掉了softmax运算
  2. (因果化)引入了因果掩码矩阵:
L=[111]

2. SSD算法

通过对上述矩阵进行块分解,可以高效、快速地计算矩阵乘法。具体来说,可以分成以下四个部分:

上述四种颜色的运算可以分别并行实现,从而实现加速计算。

3. Mamba-2 模型

Mamba-2通过移除了序列线性映射简化了Mamba结构。主要改动包括:

实验结果表明,Mamba-2性能比Mamba更好,并且训练速度更快。