Deep Gradient Projection Networks for Pan-sharpening

全色锐化的深度梯度映射网络.

paper：Deep Gradient Projection Networks for Pan-sharpening

TL; DR

针对遥感成像系统中的全色锐化（pan-sharpening）任务，论文提出了一种基于梯度投影的深度学习模型，称为梯度投影全色锐化神经网络（GPPNN）。GPPNN结合了经典模型的解释性和深度学习的性能优势，通过交替堆叠针对全色图像（PAN）和多光谱低分辨率图像（LRMS）的两个网络块，实现了高效的全色锐化。实验结果表明，GPPNN在多个卫星数据集上优于现有的最先进方法。

1. 背景介绍

全色锐化是一种典型的图像融合任务，用于结合全色图像的高空间分辨率和多光谱图像的高光谱分辨率，以生成高分辨率多光谱图像（HRMS）。过去几十年，全色锐化技术经历了从经典算法（如分量替代、多分辨率分析）到深度学习方法的演变。近年来，卷积神经网络（CNN）已成为全色锐化的重要工具，但现有方法仍存在一些问题，如需要大量训练样本、缺乏解释性等。

2. 方法介绍

论文提出了一种基于模型驱动的深度网络GPPNN，旨在结合经典模型和深度学习方法的优势。GPPNN的核心思想是考虑PAN和LRMS图像的生成模型，并通过梯度投影算法解决相应的优化问题。这些迭代步骤被泛化为两个网络块，分别对应于PAN和LRMS图像的生成模型。

（1）生成模型与优化问题

假设LRMS图像是HRMS图像经过下采样和模糊处理得到的，而PAN图像是HRMS图像的线性组合。基于这些假设，可以构建以下两个优化问题：

LRMS感知问题：

\[\min_H \frac{1}{2} \|L - DKH\|_2^2 + \lambda h_l(H)\]

PAN感知问题：

\[\min_H \frac{1}{2} \|P - HS\|_2^2 + \lambda h_p(H)\]

其中，$D$是下采样矩阵，$K$是模糊矩阵，$S$是光谱响应矩阵，$h_l(\cdot)$和$h_p(\cdot)$分别是针对LRMS和PAN图像的深度先验。

（2）网络块设计

a. MS Block

对于LRMS感知问题，采用梯度投影方法求解，更新规则如下：

\[H^{(t)} = \text{prox}_{h_l}(H^{(t-1)}) - \rho \nabla f(H^{(t-1)})\]

其中，$\text{prox}_{h_l}(\cdot)$是对应于惩罚项$h_l(\cdot)$的近端算子，$\nabla f(H^{(t-1)})$是数据保真项的梯度。这一更新过程被泛化为MS Block，包含以下四个步骤：

生成当前估计的LRMS图像：$\hat{L}^{(t)} = DKH^{(t-1)}$
计算残差：$R_l^{(t)} = L - \hat{L}^{(t)}$
更新梯度：$R_h^{(t)} = \rho (DK)^T R_l^{(t)}$
更新HRMS图像：$H^{(t)} = \text{Conv}(H^{(t-1)} + R_h^{(t)})$（其中Conv表示卷积操作）

b. PAN Block

对于PAN感知问题，采用类似的梯度投影方法和更新规则，但对应于PAN图像的生成模型和深度先验。

生成当前估计的PAN图像：$\hat{P}^{(t)} = H^{(t-1)}S$
计算残差：$R_p^{(t)} = P - \hat{P}^{(t)}$
更新梯度：$R_h^{(t)} = \rho R_p^{(t)}S^T$
更新HRMS图像：$H^{(t)} = \text{Conv}(H^{(t-1)} + R_p^{(t)})$（其中Conv表示卷积操作）

（3）GPPNN架构

GPPNN由输入层、骨干子网络和交替堆叠的MS Block和PAN Block组成。输入层通过双三次插值初始化HRMS图像的估计值。骨干子网络包含额外的卷积层以提取特征。每个MS Block和PAN Block的组合对应于一次算法迭代。网络通过最小化L1损失进行优化。

3. 实验分析

实验使用了多个卫星数据集，包括不同分辨率和光谱波段的全色和多光谱图像。评估指标包括峰值信噪比（PSNR）和其他图像质量指标。

实验结果表明，GPPNN在多个数据集上均优于现有的最先进方法。具体而言，GPPNN在PSNR指标上显著提高了全色锐化的性能。

此外，通过消融实验验证了深度先验和交替堆叠网络块的有效性。

深度先验的作用：实验表明，使用深度先验而不是手工设计的先验函数可以显著提高性能。
交替堆叠的有效性：通过比较不同数量的MS Block和PAN Block组合，发现交替堆叠可以更有效地利用两个生成模型的信息。