使用PoE-VAE进行多模态单细胞数据整合与查询.

0. TL; DR

作者提出了 Multigrate,一种基于 Product-of-Experts (PoE) 的 Variational Autoencoder (VAE) 模型,用于单细胞多组学数据的灵活整合。该方法通过 PoE 框架融合各模态专家的后验分布,支持 paired 数据整合、mosaic 整合(部分重叠数据)、查询到参考映射 (query-to-reference mapping) 以及缺失模态插补 (imputation)。

相较于 Mixture-of-Experts (MoE) 方法,PoE 在保留模态特异性信息的同时生成更一致的联合潜在空间。在 NeurIPS 2021 基准数据集和 MALDI-MSI 空间代谢组数据上的实验表明,Multigrate 在批次校正、生物信号保留和跨模态预测方面均优于 MOFA+Seurat WNNtotalVImultiVIGLUEscMoMaT 等现有方法。

1. 背景介绍

单细胞测序技术的快速发展催生了多种多组学测量方法,如同时测量基因表达与表面蛋白的 CITE-seq、联合检测基因表达与染色质可及性的 multiome 技术,以及空间转录组 (STR) 与质谱成像 (MALDI-MSI) 联用的空间代谢组学技术。这些数据为全面理解细胞异质性和功能状态提供了前所未有的机会,但也带来了严峻的计算挑战。

多模态数据整合面临三大核心难题:

  1. 异质性整合:不同模态具有截然不同的统计特性(如 RNA-seq 的稀疏计数数据与 ATAC-seq 的二元可及性数据),需要灵活的生成模型来统一建模。
  2. 马赛克整合 (Mosaic integration):实际研究中常遇到部分重叠的数据集,即某些细胞仅测量了部分模态(unimodal),而另一些细胞测量了全部模态(paired)。如何有效利用这些不完整数据构建统一的参考图谱是一个开放问题。
  3. 查询映射与插补:构建好的多模态参考图谱需要支持新数据的映射 (query mapping),包括仅含单一模态的查询数据,并能预测未测量的模态。

现有方法各有局限:MOFA+ 基于线性因子模型,难以捕捉非线性关系;totalVImultiVI 针对特定模态对设计,缺乏灵活性;Seurat WNN 基于最近邻图,难以处理复杂的批次效应;GLUEscMoMaT 在马赛克整合中表现各异,但在查询映射的灵活性上仍有不足。

为此,作者提出了 Multigrate,一种基于 PoE 的深度生成模型,通过将各模态编码器视为专家,在潜在空间融合其知识,实现了对任意组合模态的灵活整合。

2. 方法介绍

Multigrate 基于 conditional VAE (cVAE) 框架,核心架构包含三个模块:模态特异编码器、Product-of-Experts (PoE) 模块,以及模态特异解码器。

对于批次中的第 $j$ 个细胞和第 $p$ 个潜在维度,假设有 $m$ 个模态,每个模态编码器输出该模态的后验分布参数 $(\mu_i^{j,p}, \sigma_i^{j,p})$,其中 $i \in {1,\ldots,m}$。PoE 模块通过以下公式计算联合分布参数:

\[\mu^{j,p}=(\mu_{0}\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}\mu_{i}^{j,p}(\sigma_{i}^{j,p})^{-1})(\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}(\sigma_{i}^{j,p})^{-1})^{-1} \\ \sigma^{j,p}=(\sigma_{0}^{-1}+\sum_{i=1}^{m}M_{i}(\sigma_{i}^{j,p})^{-1})^{-1}\]

其中 $\mu_0=0$ 和 $\sigma_0=1$ 为标准正态先验参数,$M_i$ 为指示变量(若细胞包含模态 $i$ 则为1,否则为0)。对于缺失模态,对应项在求和时自动归零。

作为对比,Mixture-of-Experts (MoE) 方法假设联合隐变量为各模态隐变量的平均:

\[\mu^{j,p}=\frac{1}{\sum_{i=1}^{m}M_{i}}\sum_{i=1}^{m}M_{i}\mu_{i}^{j,p} \\ \sigma^{j,p}=\frac{1}{(\sum_{i=1}^{m}M_{i})^{2}}\sum_{i=1}^{m}M_{i}^{2}\sigma_{i}^{j,p}\]

PoE 相较于 MoE 的优势在于:当某模态信息缺失或噪声较大时,PoE 的方差会自动调整,而 MoE 的简单平均可能导致信息稀释。

为去除批次效应 (batch effect) 并对齐不同模态的潜在空间,作者引入了 Maximum Mean Discrepancy (MMD) 损失。对于两个分布 $P$ 和 $Q$,MMD 定义为:

\[\text{MMD}(P,Q)=\mathbb{E}_{a,a^{\prime}\sim P}[K(a,a^{\prime})]+\mathbb{E}_{b,b^{\prime}\sim Q}[K(b,b^{\prime})]-2\mathbb{E}_{a\sim P,b\sim Q}[K(a,b)]\]

其中 $K$ 为多尺度径向基核函数 (multi-scale RBF kernel)。总 MMD 损失包含两部分:

\[\mathcal{L}_{\text{MMD}}=\lambda_{\text{MMD}}^{\text{latent}}\mathcal{L}_{\text{MMD}}^{\text{latent}}+\lambda_{\text{MMD}}^{\text{marginal}}\mathcal{L}_{\text{MMD}}^{\text{marginal}}\]

其中 \(\mathcal{L}_{\text{MMD}}^{\text{latent}}\) 计算不同批次联合表示 \(z_{\text{joint}}\) 之间的 MMD,用于批次校正; \(\mathcal{L}_{\text{MMD}}^{\text{marginal}}\) 计算不同模态边缘表示 $z_i$ 之间的 MMD,用于模态对齐。

对于 query-to-reference mappingMultigrate 采用 scArches 迁移学习策略。在no-query-in-train设置下,模型首先在参考数据上训练,然后冻结参考网络权重,仅训练查询数据对应的新权重。在”query-in-train“设置下,查询数据(通常为 unimodal RNA)在训练时即参与 MMD 对齐,可直接重构缺失模态。

3. 实验分析

3.1 马赛克整合与查询映射

作者展示了 Multigrate 在马赛克整合中的性能,整合了 NeurIPS 2021 CITE-seqRNA+蛋白)和 multiomeRNA+ATAC)数据:

3.2 空间代谢组学预测

作者展示了 MultigrateVicari et al. 数据集上的应用,从空间转录组 (STR) 预测 MALDI-MSI 代谢物: