Pan-Mamba:通过状态空间模型实现高效全色锐化.
TL; DR
本文提出了一种新颖的全色锐化网络Pan-Mamba,该网络利用了状态空间模型(State Space Model)来处理低分辨率多光谱(LRMS)图像和高分辨率全色(PAN)图像的信息融合。Pan-Mamba通过初步的跨模态交互、高效的特征提取与融合,以及冗余模态特征的过滤,实现了高分辨率多光谱图像的生成。实验结果表明,Pan-Mamba在多个数据集上均优于当前最先进的方法,不仅在定量指标上有所提升,还在真实世界的全分辨率数据集上展现了强大的泛化能力。
1. 背景介绍
全色锐化(Pan-sharpening)技术旨在结合低分辨率多光谱图像和高分辨率全色图像的信息,以生成高分辨率多光谱图像。多光谱图像包含丰富的光谱信息,但分辨率较低;而全色图像则具有较高的空间分辨率,但缺乏光谱信息。通过全色锐化技术,可以融合这两种互补信息,从而生成既具有高空间分辨率又包含丰富光谱信息的图像。
近年来,状态空间模型在计算机视觉领域取得了显著进展,特别是在长距离依赖建模方面。Mamba模型通过引入输入自适应机制,增强了状态空间模型的能力,实现了更高的推理速度、吞吐量和整体性能。然而,状态空间模型在多模态图像融合(如全色锐化)方面的潜力尚未得到充分探索。因此,本文提出了Pan-Mamba模型,旨在利用状态空间模型的优势来解决全色锐化问题。
2. 方法介绍
状态空间模型的概念最初在S4模型中提出,该模型具有全局信息建模的有效架构,相较于传统的卷积神经网络(CNN)或Transformer架构具有显著优势。随后,S5模型进一步降低了复杂度,实现了线性级别的计算复杂度。H3模型在此基础上进行了精炼和扩展,使模型在语言模型任务中能够与Transformer相媲美。Mamba模型则通过引入输入自适应机制,增强了状态空间模型的能力,相比同等规模的Transformer具有更高的性能。
Pan-Mamba模型架构由三个核心组件组成:Mamba块、通道交换Mamba块和跨模态Mamba块。
- Mamba块:用于建模PAN和LRMS特征内的长距离依赖关系。
- 通道交换Mamba块:通过交换PAN和LRMS特征的通道来鼓励特征交互,并引发它们之间的相关性。
- 跨模态Mamba块:基于交叉注意力机制,实现PAN和LRMS特征的有效融合。
Pan-Mamba模型首先使用卷积层将两种图像投影到特征空间,并沿空间维度扁平化为令牌;然后利用状态空间模型的离散表示来更新隐藏状态,并生成输出;之后通过通道交换和跨模态Mamba块实现特征的深度融合和冗余特征的过滤;最后通过反卷积层将融合后的特征重构为高分辨率多光谱图像。
3. 实验分析
实验采用了WorldView-II、WorldView-III和Gaofen-2等多个数据集进行评估。评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、光谱角映射(SAM)和相对全局无量纲合成误差(ERGAS)等。
实验结果表明,Pan-Mamba在多个数据集上均优于当前最先进的方法。在WorldView-II和WorldView-III数据集上,Pan-Mamba在PSNR指标上分别提升了0.38和0.29,同时在SSIM和SAM指标上也表现出显著的改进。此外,在真实世界的全分辨率WV2数据集上,Pan-Mamba也取得了优越的性能,验证了模型的强大泛化能力。
为了验证状态空间模型的有效性,进行了消融实验。实验结果表明,状态空间模型在图像恢复任务中表现优于其他广泛认可的操作符,如卷积核和Transformer等。这进一步证明了Pan-Mamba模型中状态空间模型的核心作用。
与其他先进方法相比,Pan-Mamba在保持高性能的同时,也具有较高的计算效率。这得益于状态空间模型的高效特征提取和融合能力,以及模型架构的轻量化设计。