Mamba-R: Vision Mamba ALSO Needs Registers

Mamba-R: 视觉Mamba也需要寄存器。

paper：Mamba-R: Vision Mamba ALSO Needs Registers

0. TL;DR

这篇论文针对 Vision Mamba 模型中存在的特征图伪影问题，提出了 Mamba® 架构。通过在输入序列中均匀插入寄存器token，并在最终预测时回收利用这些寄存器，Mamba® 有效减少了特征图中的伪影，提升了模型性能和可扩展性。

1. 背景介绍

近年来，状态空间模型（SSMs）在序列建模任务中展现出巨大潜力。与 Transformer 的二次计算复杂度相比，SSMs 具有线性计算复杂度，能够更高效地处理长序列。Mamba 架构作为 SSMs 的一种实例，通过选择性扫描技术和硬件优化设计，实现了高效的训练和推理。它不仅在自然语言和音频处理任务中表现出色，还被成功扩展到视觉任务领域。然而，Vision Mamba 在处理视觉输入时暴露出特征图伪影问题，这些伪影对应于图像低信息背景区域中出现的高范数token，严重影响了模型的特征提取和优化稳定性。

2. Mamba® 模型

在 Vision Mamba 模型中，存在与 ViT 类似的特征伪影问题。这些伪影表现为在低信息背景区域中出现大量高范数token，它们在推理过程中倾向于丢弃局部信息以保留全局特征，从而影响特征图质量。研究表明，Vision Mamba 的伪影问题比 ViT 更为严重，主要体现在：

伪影在背景区域更为普遍，且具有更高的范数值。
即使在小型 Vision Mamba 模型中也存在伪影，并且随着模型尺寸的增加而加剧。
这些伪影对模型的特征提取和优化稳定性构成挑战，可能导致训练不稳定和扩展困难。

为解决 Vision Mamba 的特征伪影问题，论文提出了 Mamba® 架构，通过在输入序列中均匀插入寄存器token，并在最终预测时回收利用这些寄存器，具体包括以下两个关键修改：

稀疏分布的寄存器token：在输入序列中均匀插入寄存器token，以增强与局部token的有效交互，帮助捕获和保留不同位置的重要语义信息。
寄存器头部用于最终预测：在最终预测时，将寄存器token的输出通过线性层降维后拼接成一个全局表示，而不是像 ViT 那样丢弃寄存器。这种设计借鉴了多头注意力机制中拼接的思路，更有效地保留了所有寄存器的信息。