使用PoE-VAE进行多模态单细胞数据整合与查询.
0. TL; DR
作者提出了 Multigrate,一种基于 Product-of-Experts (PoE) 的 Variational Autoencoder (VAE) 模型,用于单细胞多组学数据的灵活整合。该方法通过 PoE 框架融合各模态专家的后验分布,支持 paired 数据整合、mosaic 整合(部分重叠数据)、查询到参考映射 (query-to-reference mapping) 以及缺失模态插补 (imputation)。
相较于 Mixture-of-Experts (MoE) 方法,PoE 在保留模态特异性信息的同时生成更一致的联合潜在空间。在 NeurIPS 2021 基准数据集和 MALDI-MSI 空间代谢组数据上的实验表明,Multigrate 在批次校正、生物信号保留和跨模态预测方面均优于 MOFA+、Seurat WNN、totalVI、multiVI、GLUE 和 scMoMaT 等现有方法。
1. 背景介绍
单细胞测序技术的快速发展催生了多种多组学测量方法,如同时测量基因表达与表面蛋白的 CITE-seq、联合检测基因表达与染色质可及性的 multiome 技术,以及空间转录组 (STR) 与质谱成像 (MALDI-MSI) 联用的空间代谢组学技术。这些数据为全面理解细胞异质性和功能状态提供了前所未有的机会,但也带来了严峻的计算挑战。
多模态数据整合面临三大核心难题:
- 异质性整合:不同模态具有截然不同的统计特性(如 RNA-seq 的稀疏计数数据与 ATAC-seq 的二元可及性数据),需要灵活的生成模型来统一建模。
- 马赛克整合 (Mosaic integration):实际研究中常遇到部分重叠的数据集,即某些细胞仅测量了部分模态(unimodal),而另一些细胞测量了全部模态(paired)。如何有效利用这些不完整数据构建统一的参考图谱是一个开放问题。
- 查询映射与插补:构建好的多模态参考图谱需要支持新数据的映射 (query mapping),包括仅含单一模态的查询数据,并能预测未测量的模态。
现有方法各有局限:MOFA+ 基于线性因子模型,难以捕捉非线性关系;totalVI 和 multiVI 针对特定模态对设计,缺乏灵活性;Seurat WNN 基于最近邻图,难以处理复杂的批次效应;GLUE 和 scMoMaT 在马赛克整合中表现各异,但在查询映射的灵活性上仍有不足。
为此,作者提出了 Multigrate,一种基于 PoE 的深度生成模型,通过将各模态编码器视为专家,在潜在空间融合其知识,实现了对任意组合模态的灵活整合。
2. 方法介绍
Multigrate 基于 conditional VAE (cVAE) 框架,核心架构包含三个模块:模态特异编码器、Product-of-Experts (PoE) 模块,以及模态特异解码器。

对于批次中的第 $j$ 个细胞和第 $p$ 个潜在维度,假设有 $m$ 个模态,每个模态编码器输出该模态的后验分布参数 $(\mu_i^{j,p}, \sigma_i^{j,p})$,其中 $i \in {1,\ldots,m}$。PoE 模块通过以下公式计算联合分布参数:
\[\mu^{j,p}=(\mu_{0}\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}\mu_{i}^{j,p}(\sigma_{i}^{j,p})^{-1})(\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}(\sigma_{i}^{j,p})^{-1})^{-1} \\ \sigma^{j,p}=(\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}(\sigma_{i}^{j,p})^{-1})^{-1}\]其中 $\mu_0=0$ 和 $\sigma_0=1$ 为标准正态先验参数,$M_i$ 为指示变量(若细胞包含模态 $i$ 则为1,否则为0)。对于缺失模态,对应项在求和时自动归零。
作为对比,Mixture-of-Experts (MoE) 方法假设联合隐变量为各模态隐变量的平均:
\[\mu^{j,p}=\frac{1}{\sum_{i=1}^{m}M_{i}}\sum_{i=1}^{m}M_{i}\mu_{i}^{j,p} \\ \sigma^{j,p}=\frac{1}{(\sum_{i=1}^{m}M_{i})^{2}}\sum_{i=1}^{m}M_{i}^{2}\sigma_{i}^{j,p}\]PoE 相较于 MoE 的优势在于:当某模态信息缺失或噪声较大时,PoE 的方差会自动调整,而 MoE 的简单平均可能导致信息稀释。
为去除批次效应 (batch effect) 并对齐不同模态的潜在空间,作者引入了 Maximum Mean Discrepancy (MMD) 损失。对于两个分布 $P$ 和 $Q$,MMD 定义为:
\[\text{MMD}(P,Q)=\mathbb{E}_{a,a^{\prime}\sim P}[K(a,a^{\prime})]+\mathbb{E}_{b,b^{\prime}\sim Q}[K(b,b^{\prime})]-2\mathbb{E}_{a\sim P,b\sim Q}[K(a,b)]\]其中 $K$ 为多尺度径向基核函数 (multi-scale RBF kernel)。总 MMD 损失包含两部分:
\[\mathcal{L}_{\text{MMD}}=\lambda_{\text{MMD}}^{\text{latent}}\mathcal{L}_{\text{MMD}}^{\text{latent}}+\lambda_{\text{MMD}}^{\text{marginal}}\mathcal{L}_{\text{MMD}}^{\text{marginal}}\]其中 \(\mathcal{L}_{\text{MMD}}^{\text{latent}}\) 计算不同批次联合表示 \(z_{\text{joint}}\) 之间的 MMD,用于批次校正; \(\mathcal{L}_{\text{MMD}}^{\text{marginal}}\) 计算不同模态边缘表示 $z_i$ 之间的 MMD,用于模态对齐。
对于 query-to-reference mapping,Multigrate 采用 scArches 迁移学习策略。在no-query-in-train设置下,模型首先在参考数据上训练,然后冻结参考网络权重,仅训练查询数据对应的新权重。在”query-in-train“设置下,查询数据(通常为 unimodal RNA)在训练时即参与 MMD 对齐,可直接重构缺失模态。
3. 实验分析
3.1 马赛克整合与查询映射
作者展示了 Multigrate 在马赛克整合中的性能,整合了 NeurIPS 2021 CITE-seq(RNA+蛋白)和 multiome(RNA+ATAC)数据:
- Figure A:实验设计示意图,参考集包含 paired RNA-ATAC 和 paired RNA-protein,查询集包括 multimodal(RNA-ATAC、RNA-protein)和 unimodal(RNA、ATAC)数据。
- Figure B:Multigrate 的 UMAP 显示细胞按类型聚类,不同模态(CITE vs multiome)混合良好。GLUE (paired, averaged) 表现次之,但某些细胞类型(如 NK 细胞)的跨模态整合不如 Multigrate 紧密。
- Figure C(整合指标):Multigrate 在生物保守性(NMI 0.77、ARI 0.63)和批次校正(Modality ASW 0.95)上均表现最佳,总分 0.77 高于 GLUE (0.74)、scMoMaT (0.65) 等方法。
- Figure D:对完整查询集的细胞类型预测混淆矩阵显示,Multigrate 能准确预测大多数细胞类型,对角线元素占主导。
- Figure E:不同查询类型(CITE、multiome、snRNA、scRNA、scATAC)的映射结果显示,Multigrate 能成功将所有查询映射到参考空间,multimodal 查询的批次校正得分最高。

3.2 空间代谢组学预测
作者展示了 Multigrate 在 Vicari et al. 数据集上的应用,从空间转录组 (STR) 预测 MALDI-MSI 代谢物:
- Figure A:STR 和 MALDI-MSI 切片的空间对齐示意图,通过 Moscot 对齐获得配对 spots。
- Figure B:Multigrate 学习到的联合潜在空间 UMAP 显示,潜在表示能同时捕捉 RNA 和 MSI 的结构信息。RNA 空间的 UMAP 与 MSI 空间的可视化显示一致的空间模式。
- Figure C:两种代表性代谢物(837.66747 和 248.93283)的真实值与预测值空间分布对比显示,Multigrate 能准确预测代谢物的空间分布模式,Pearson 相关性达 0.943,Spearman 相关性达 0.866。
