0. TL; DR

作者提出了 Multigrate，一种基于 Product-of-Experts (PoE) 的 Variational Autoencoder (VAE) 模型，用于单细胞多组学数据的灵活整合。该方法通过 PoE 框架融合各模态专家的后验分布，支持 paired 数据整合、mosaic 整合（部分重叠数据）、查询到参考映射 (query-to-reference mapping) 以及缺失模态插补 (imputation)。

相较于 Mixture-of-Experts (MoE) 方法，PoE 在保留模态特异性信息的同时生成更一致的联合潜在空间。在 NeurIPS 2021 基准数据集和 MALDI-MSI 空间代谢组数据上的实验表明，Multigrate 在批次校正、生物信号保留和跨模态预测方面均优于 MOFA+、Seurat WNN、totalVI、multiVI、GLUE 和 scMoMaT 等现有方法。

1. 背景介绍

单细胞测序技术的快速发展催生了多种多组学测量方法，如同时测量基因表达与表面蛋白的 CITE-seq、联合检测基因表达与染色质可及性的 multiome 技术，以及空间转录组 (STR) 与质谱成像 (MALDI-MSI) 联用的空间代谢组学技术。这些数据为全面理解细胞异质性和功能状态提供了前所未有的机会，但也带来了严峻的计算挑战。

多模态数据整合面临三大核心难题：

异质性整合：不同模态具有截然不同的统计特性（如 RNA-seq 的稀疏计数数据与 ATAC-seq 的二元可及性数据），需要灵活的生成模型来统一建模。
马赛克整合 (Mosaic integration)：实际研究中常遇到部分重叠的数据集，即某些细胞仅测量了部分模态（unimodal），而另一些细胞测量了全部模态（paired）。如何有效利用这些不完整数据构建统一的参考图谱是一个开放问题。
查询映射与插补：构建好的多模态参考图谱需要支持新数据的映射 (query mapping)，包括仅含单一模态的查询数据，并能预测未测量的模态。

现有方法各有局限：MOFA+ 基于线性因子模型，难以捕捉非线性关系；totalVI 和 multiVI 针对特定模态对设计，缺乏灵活性；Seurat WNN 基于最近邻图，难以处理复杂的批次效应；GLUE 和 scMoMaT 在马赛克整合中表现各异，但在查询映射的灵活性上仍有不足。

为此，作者提出了 Multigrate，一种基于 PoE 的深度生成模型，通过将各模态编码器视为专家，在潜在空间融合其知识，实现了对任意组合模态的灵活整合。

2. 方法介绍

Multigrate 基于 conditional VAE (cVAE) 框架，核心架构包含三个模块：模态特异编码器、Product-of-Experts (PoE) 模块，以及模态特异解码器。

对于批次中的第 $j$ 个细胞和第 $p$ 个潜在维度，假设有 $m$ 个模态，每个模态编码器输出该模态的后验分布参数 $(\mu_i^{j,p}, \sigma_i^{j,p})$，其中 $i \in {1,\ldots,m}$。PoE 模块通过以下公式计算联合分布参数：

\[\mu^{j,p}=(\mu_{0}\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}\mu_{i}^{j,p}(\sigma_{i}^{j,p})^{-1})(\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}(\sigma_{i}^{j,p})^{-1})^{-1} \\ \sigma^{j,p}=(\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}(\sigma_{i}^{j,p})^{-1})^{-1}\]

其中 $\mu_0=0$ 和 $\sigma_0=1$ 为标准正态先验参数，$M_i$ 为指示变量（若细胞包含模态 $i$ 则为1，否则为0）。对于缺失模态，对应项在求和时自动归零。

作为对比，Mixture-of-Experts (MoE) 方法假设联合隐变量为各模态隐变量的平均：

\[\mu^{j,p}=\frac{1}{\sum_{i=1}^{m}M_{i}}\sum_{i=1}^{m}M_{i}\mu_{i}^{j,p} \\ \sigma^{j,p}=\frac{1}{(\sum_{i=1}^{m}M_{i})^{2}}\sum_{i=1}^{m}M_{i}^{2}\sigma_{i}^{j,p}\]

PoE 相较于 MoE 的优势在于：当某模态信息缺失或噪声较大时，PoE 的方差会自动调整，而 MoE 的简单平均可能导致信息稀释。

为去除批次效应 (batch effect) 并对齐不同模态的潜在空间，作者引入了 Maximum Mean Discrepancy (MMD) 损失。对于两个分布 $P$ 和 $Q$，MMD 定义为：

\[\text{MMD}(P,Q)=\mathbb{E}_{a,a^{\prime}\sim P}[K(a,a^{\prime})]+\mathbb{E}_{b,b^{\prime}\sim Q}[K(b,b^{\prime})]-2\mathbb{E}_{a\sim P,b\sim Q}[K(a,b)]\]

其中 $K$ 为多尺度径向基核函数 (multi-scale RBF kernel)。总 MMD 损失包含两部分：

\[\mathcal{L}_{\text{MMD}}=\lambda_{\text{MMD}}^{\text{latent}}\mathcal{L}_{\text{MMD}}^{\text{latent}}+\lambda_{\text{MMD}}^{\text{marginal}}\mathcal{L}_{\text{MMD}}^{\text{marginal}}\]

其中 $\mathcal{L}_{\text{MMD}}^{\text{latent}}$ 计算不同批次联合表示 $z_{\text{joint}}$ 之间的 MMD，用于批次校正； $\mathcal{L}_{\text{MMD}}^{\text{marginal}}$ 计算不同模态边缘表示 $z_i$ 之间的 MMD，用于模态对齐。

对于 query-to-reference mapping，Multigrate 采用 scArches 迁移学习策略。在no-query-in-train设置下，模型首先在参考数据上训练，然后冻结参考网络权重，仅训练查询数据对应的新权重。在”query-in-train“设置下，查询数据（通常为 unimodal RNA）在训练时即参与 MMD 对齐，可直接重构缺失模态。

3. 实验分析

3.1 马赛克整合与查询映射

作者展示了 Multigrate 在马赛克整合中的性能，整合了 NeurIPS 2021 CITE-seq（RNA+蛋白）和 multiome（RNA+ATAC）数据：

Figure A：实验设计示意图，参考集包含 paired RNA-ATAC 和 paired RNA-protein，查询集包括 multimodal（RNA-ATAC、RNA-protein）和 unimodal（RNA、ATAC）数据。
Figure B：Multigrate 的 UMAP 显示细胞按类型聚类，不同模态（CITE vs multiome）混合良好。GLUE (paired, averaged) 表现次之，但某些细胞类型（如 NK 细胞）的跨模态整合不如 Multigrate 紧密。
Figure C（整合指标）：Multigrate 在生物保守性（NMI 0.77、ARI 0.63）和批次校正（Modality ASW 0.95）上均表现最佳，总分 0.77 高于 GLUE (0.74)、scMoMaT (0.65) 等方法。
Figure D：对完整查询集的细胞类型预测混淆矩阵显示，Multigrate 能准确预测大多数细胞类型，对角线元素占主导。
Figure E：不同查询类型（CITE、multiome、snRNA、scRNA、scATAC）的映射结果显示，Multigrate 能成功将所有查询映射到参考空间，multimodal 查询的批次校正得分最高。

3.2 空间代谢组学预测

作者展示了 Multigrate 在 Vicari et al. 数据集上的应用，从空间转录组 (STR) 预测 MALDI-MSI 代谢物：

Figure A：STR 和 MALDI-MSI 切片的空间对齐示意图，通过 Moscot 对齐获得配对 spots。
Figure B：Multigrate 学习到的联合潜在空间 UMAP 显示，潜在表示能同时捕捉 RNA 和 MSI 的结构信息。RNA 空间的 UMAP 与 MSI 空间的可视化显示一致的空间模式。
Figure C：两种代表性代谢物（837.66747 和 248.93283）的真实值与预测值空间分布对比显示，Multigrate 能准确预测代谢物的空间分布模式，Pearson 相关性达 0.943，Spearman 相关性达 0.866。