通过线性状态空间层结合循环、卷积核连续时间模型.

0. TL;DR

本文介绍了一种受控制系统启发的简单序列模型——线性状态空间层(LSSL),旨在泛化现代时间序列模型的主要方法家族,同时解决它们的不足。LSSL通过模拟线性连续时间状态空间表示,将序列映射为输出。理论上,作者证明了LSSL模型与经典正交多项式(OP)的连续时间记忆算子密切相关,从而继承了其长期依赖处理能力。

实验表明,LSSL在多个任务上表现出色,同时保持了计算效率。本文还解决了LSSL在实际应用中的几个关键问题,包括其表达能力和深度结构的理论保证,以及针对长序列和缺失数据的有效算法。

1. 背景介绍

时间序列分析在现代机器学习和信号处理中占据重要地位。循环神经网络(RNN)及其变体,如长短时记忆网络(LSTM)和门控循环单元(GRU),已成为处理序列数据的标准工具。然而,这些模型在处理长期依赖时仍存在挑战,且计算效率有待提高。近年来,基于连续时间动态系统或常微分方程(ODE)的连续时间RNNCT-RNN)模型逐渐兴起,为解决这些问题提供了新的视角。

本文提出了一种新的序列模型——线性状态空间层(LSSL),它结合了循环、卷积和连续时间模型的优点。LSSL通过模拟线性连续时间状态空间表示来处理序列数据,理论上与经典正交多项式的连续时间记忆算子密切相关,从而能够有效处理长期依赖。此外,LSSL还具有计算效率高、易于实现和可扩展性强等优点。

2. LSSL模型

LSSL模型的核心是线性连续时间状态空间表示,其形式为:

\[\mathbf{x}^\prime(t) = A \mathbf{x}(t) + B \mathbf{u}(t) \\ \mathbf{y}(t) = C \mathbf{x}(t) + D \mathbf{u}(t)\]

其中$\mathbf{x}(t)$是状态变量,$\mathbf{u}(t)$是输入序列,$\mathbf{y}(t)$是输出序列,$A,B,C,D$是系统矩阵。通过模拟这个连续时间系统,LSSL能够将输入序列映射为输出序列。

在离散时间情况下,LSSL的更新规则可以表示为:

\[x_t = A x_{t-1} + B u_t \\ y_t = C x_t + D u_t\]

其中$x_t$和$u_t$分别是时间步$t$的状态和输入,$y_t$是时间步$t$的输出。

此外,LSSL还可以从卷积的视角进行解释。注意到:

\[\begin{aligned} x_0 &= B u_0 \\ y_0 &= C x_0+Du_0= CB x_0+Du_0 \\ x_1 &= A x_0 + B u_1 = A B u_0 + B u_1 \\ y_1 &= C x_1+Du_1 = CA B x_0 + CB x_1+Du_1 \\ x_2 &= A x_1 + B u_2 = A (A B u_0 + B u_1) + B u_2= A^2 B u_0 +A B u_1 + B u_2 \\ y_1 &= C x_2+Du_2 = CA^2 B u_0 +CA B u_1 + CB u_2 +Du_2 \\ & \cdots \\ x_k &= A^k B u_0 +A^{k-1} B u_1 + \cdots +A B u_{k-1} + B u_k \\ y_k &= C A^k B u_0 +CA^{k-1} B u_1 + \cdots +CA B u_{k-1} + CB u_k +Du_k \\ \end{aligned}\]

对于长度为$L$的序列,输出$y$可以表示为输入$u$与核$K_L(A,B,C)$的卷积加上直接项$Du$:

\[y = K_L(A,B,C) * u + Du\]

通过利用HiPPO框架,可以构造出能够处理长期依赖的LSSL。对于状态矩阵$A$,采用HiPPO-LegS算子进行初始化,该算子被设计为解决特定的连续时间记忆问题。对于离散化时间尺度$Δt$,采用对数均匀分布进行初始化,以确保其覆盖序列长度的合理范围。

3. 实验分析

通过分析实验结果,发现LSSL在处理长期依赖时表现出色,这得益于其连续时间状态空间表示和与HiPPO框架的密切关系。此外,LSSL的卷积视角也为其在处理图像和语音等任务时提供了优势。

实验结果表明,LSSL在多个任务上均表现出色。与现有的RNN变体相比,LSSL在计算效率上具有明显优势,同时能够保持甚至超越其性能。此外,LSSL还具有处理长序列和缺失数据的能力,这在实际应用中具有重要意义。