Diagonal State Spaces are as Effective as Structured State Spaces

对角状态空间和结构化状态空间一样有效.

paper：Diagonal State Spaces are as Effective as Structured State Spaces

1. 背景介绍

在深度学习领域，状态空间模型（State Space Models, SSMs）是一类用于序列数据建模的重要工具。传统SSMs通常具有复杂的结构和较高的计算成本，限制了其在长序列任务中的应用。近年来，随着Transformer模型的普及，各种变体不断涌现，旨在降低计算和内存需求。然而，这些变体在长范围依赖任务上的性能仍然不尽如人意。

本文提出了一种新的思路，即通过对角状态空间（DSS）来简化SSM的参数化，同时保持其表达能力。DSS的核心思想是利用对角矩阵来替代一般状态空间中的复杂矩阵，从而在保证性能的同时降低计算复杂度。

2. Diagonal State Space

在连续时间状态下，SSM由状态矩阵$A$、输入向量$B$和输出向量$C$参数化，定义了一个从输入信号$u$到输出信号$y$的函数映射。

\[\begin{aligned} \mathbf{x}^\prime(t) &= A \mathbf{x}(t) + B \mathbf{u}(t) \\ \mathbf{y}(t) &= C \mathbf{x}(t) \\ \end{aligned}\]

形式上，构造下列形式的卷积核$\overline{K}$，即可将序列运算转化为卷积运算：

\[\begin{aligned} \overline{K} &= (C\overline{B}, C\overline{A} \overline{B},...,C \overline{A}^k \overline{B}, ...) \\ y &= \overline{K} * u \end{aligned}\]

本文作者指出，对角状态空间与一般状态空间具有相同的表达能力。DSS通过参数化状态空间，避免了矩阵幂（$\overline{A}^k$）的计算，仅涉及结构化的矩阵-向量乘积。

根据SSM的连续-离散形式转换关系：

\[\begin{aligned} \overline{A} &= e^{\Delta \mathbf{A}} \\ \overline{B} &= (e^{\Delta A}-I ) A^{-1} B \end{aligned}\]

则卷积核的第$k$个元素为：

\[\begin{aligned} \overline{K}_k &= C \overline{A}^k \overline{B} \\ &= C e^{A\cdot k\Delta} (e^{A\Delta}-I) A^{-1} B \\ \end{aligned}\]

假设$A$可对角化：$A=V\Lambda V^{-1}$，特征值为$\lambda_1,…,\lambda_N$，记$(CV)(V^{-1}B)=\tilde{w}$，则上式可表示成：

\[\begin{aligned} \overline{K}_k &= C e^{A\cdot k\Delta} (e^{A\Delta}-I) A^{-1} B \\ &= (CV) e^{\Lambda\cdot k\Delta} (e^{\Lambda\Delta}-I) \Lambda^{-1} (V^{-1}B) \\ &= \sum_{i=1}^N \frac{e^{\lambda_i\cdot k\Delta} (e^{\lambda_i\Delta}-I)}{\lambda_i} \tilde{w}_i \\ &= \sum_{i=1}^N \frac{e^{\lambda_i\cdot k\Delta} (e^{\lambda_i\Delta}-I)}{\lambda_i (e^{L\lambda_i\Delta}-I)} (e^{L\lambda_i\Delta}-I)\tilde{w}_i \\ &= \sum_{i=1}^N \tilde{w}_i (e^{L\lambda_i\Delta}-I) \frac{1}{\lambda_i} \frac{e^{\lambda_i\cdot k\Delta} }{\sum_{l=0}^{L-1}e^{l\lambda_i\Delta}} \\ \end{aligned}\]

记$P,P_{i,k}=\lambda_i k \Delta$，则卷积核可以表示为：

\[K = \tilde{w} \cdot \Lambda^{-1} (e^{\Lambda \Delta}-I) \cdot \text{elementwise-exp}(P)\]

上式称为DSS-EXP。

另一方面，记$w_i=\tilde{w}_i(e^{L\lambda_i\Delta}-I)$，则上式也可表示成：

\[\begin{aligned} \overline{K}_k &= \sum_{i=1}^N \tilde{w}_i (e^{L\lambda_i\Delta}-I) \frac{1}{\lambda_i} \frac{e^{\lambda_i\cdot k\Delta} }{\sum_{l=0}^{L-1}e^{l\lambda_i\Delta}} \\ &= \sum_{i=1}^N w_i \frac{1}{\lambda_i} \frac{e^{\lambda_i\cdot k\Delta} }{\sum_{l=0}^{L-1}e^{l\lambda_i\Delta}} \\ \end{aligned}\]

卷积核也可以表示为：

\[K = w \cdot \Lambda^{-1} \cdot \text{row-softmax}(P)\]

上式称为DSS-SOFTMAX。