单细胞多组学数据集成分析的混合专家深度生成模型.
0. TL; DR
scMVAE (single-cell Multimodal Variational Autoencoder)是一个为整合配对的scRNA-seq和scATAC-seq数据而设计的深度联合学习模型。它采用高斯混合模型先验以学习一个能够准确代表这种多层分子谱的联合潜在特征。
scMVAE不仅是一个整合工具,它还具备数据去噪与插补能力,通过其生成式解码器,能够有效修复两种模态数据中的稀疏信号。学习到的联合嵌入能够显著提升两种模态数据之间的一致性,为推断转录调控关系提供了坚实基础。
1. 背景介绍
随着单细胞测序技术的日新月异,从只能单独观测细胞的某个方面(如基因表达),迈入了可以同时窥探其多个分子层面的多组学时代。特别是,像sci-CAR-seq和SNARE-seq这样的技术能够在同一个细胞内,同时获得其转录组(scRNA-seq)和染色质可及性(scATAC-seq)的信息。
这两种信息的结合直接关联基因的调控开关(染色质开放状态)和其表达产出(RNA水平),从而更深入地理解基因调控的精细机制和细胞状态的多样性。然而,整合这两种来源相同但性质迥异的数据,面临着巨大的计算挑战:
- 数据固有的稀疏性与异构性: 单细胞数据,尤其是scATAC-seq,存在大量的dropout现象(技术性零值),数据极其稀疏。同时,两种模态的数据分布、特征维度(scATAC-seq的特征数通常是scRNA-seq的10-20倍)差异巨大。
- 现有整合方法的局限性:
- 为非配对数据设计的方法:许多经典方法,如Seurat和LIGER,最初是为整合来自不同细胞的scRNA-seq和scATAC-seq数据而设计的。它们通常需要一个预处理步骤,即将scATAC-seq数据转换为基因活性得分矩阵,以匹配scRNA-seq的特征空间。这个转换过程不可避免地会丢失原始的表观遗传信息。
- 为块数据设计的通用方法:像MOFA和IntNMF这样的方法,虽然能处理多组学数据,但它们是为传统的块(bulk)数据设计的,可能无法很好地适应单细胞数据独特的统计特性和稀疏性。
- 深度学习模型的挑战:虽然基于变分自编码器(VAE)的方法(如scVI)在处理单模态scRNA-seq数据上取得了巨大成功,但标准的VAE使用单一高斯分布作为先验,难以捕捉多组学数据中复杂的、多峰的聚类结构。
因此需要一个专门为配对的单细胞多组学数据设计的、能够直接处理异构数据、并能有效捕捉复杂细胞结构的深度学习框架。
2. scMVAE 模型
scMVAE 的核心是一个多模态变分自编码器(Multimodal VAE),它采用了高斯混合模型(GMM)作为先验,并创新性地探索了三种不同的策略来融合来自scRNA-seq和scATAC-seq的信息。

scMVAE 的基础是一个概率生成模型。它假设在一个细胞中,观测到的scRNA-seq数据 $x$ 和scATAC-seq数据 $y$,都是由一个共享的、低维的联合潜在特征(joint latent feature) $z$ 生成的。
为了更好地捕捉细胞的聚类结构,模型假设潜在变量 $z$ 服从一个高斯混合模型先验。即细胞首先属于$K$个簇中的一个$c$,然后在该簇的条件下,$z$ 服从一个特定的高斯分布:
\[c \sim \text{Cat}(\frac{1}{K}), \quad z \sim \mathcal{N}(\mu_c, \sigma_c^2 I)\]给定潜在变量 $z$,两种模态的数据被假设为从零膨胀负二项分布(ZINB)中独立生成。ZINB分布能很好地处理单细胞数据中普遍存在的稀疏性和过离散性。
\[x_r = \begin{cases} x' & \text{if } \pi_x=0 \\ 0 & \text{otherwise} \end{cases}, \quad \text{where } x' \sim \text{Possion}(l_x \mu_x), \mu_x \sim \text{Gamma}(f_{\mu_x}(f(z)), f_{\theta_x}(f(z)))\\ y_r = \begin{cases} y' & \text{if } \pi_y=0 \\ 0 & \text{otherwise} \end{cases}, \quad \text{where } y' \sim \text{Possion}(l_y \mu_y), \mu_y \sim \text{Gamma}(f_{\mu_y}(f(z)), f_{\theta_y}(f(z)))\]其中$l_x$ 和 $l_y$ 是细胞特异性的文库大小因子。
如何从输入的 $x$ 和 $y$ 中推断出联合的潜在变量 $z$?scMVAE探索并实现了三种不同的联合编码(joint-learning)策略。
- 策略一:专家乘积 (Product of Experts, PoE)。将每个模态的编码器视为一个专家。RNA专家根据 $x$ 给出一个关于 $z$ 的后验分布 $q(z|x)$,ATAC专家根据 $y$ 给出另一个后验分布 $q(z|y)$。联合的后验分布被近似为这两个专家的乘积。由于高斯分布的乘积仍是高斯分布,联合后验的均值和方差可以通过简单的解析公式计算得出。这是理论上最能融合多模态信息的策略。
- 策略二:神经网络融合 (Neural Network, NN)。首先用两个独立的子编码器网络,分别从 $x$ 和 $y$ 中提取出各自的中间特征。然后将这两个中间特征拼接起来,再送入一个额外的神经网络层进行非线性融合,最终得到联合潜在变量 $z$ 的分布参数。这是一个更数据驱动、更灵活的融合方式,能够学习到模态间复杂的非线性关系。
- 策略三:直接拼接 (Direct)。直接将原始的 $x$ 和 $y$ 数据拼接成一个更长的向量,然后将其作为单个VAE的输入,来学习潜在变量 $z$。这种浅层的融合方式,可能难以捕捉到模态间深层次的关联。
scMVAE通过最大化证据下界(ELBO)来进行端到端的训练。其目标函数可以写作:
\[\text{ELBO} \ge \mathbb{E}_{q_\phi} [\lambda_1 \log(p_{\theta_1}(x|z,l_x)) + \lambda_2 \log(p_{\theta_2}(y|z,l_y))] \\- \alpha_1 D_{KL}(q(l_x|x) \| p(l_x)) - \alpha_2 D_{KL}(q(l_y|y) \| p(l_y)) - \beta D_{KL}(q(z,c|x,y) \| p(z,c))\]这个目标函数包含了:
- 两个重构项:分别对应scRNA-seq和scATAC-seq的重构损失,确保潜在空间编码了足够的信息。
- 三个KL散度项:分别约束了两个文库大小因子 $l_x, l_y$ 和联合潜在变量 $z$ 的后验分布,使其接近先验分布。
通过使用Adam优化器进行随机梯度下降,模型的所有参数(编码器、解码器等)都会被联合优化。
3. 实验分析
作者在多个模拟数据集和两个来自SNARE-seq和scCAT-seq技术的真实数据集上,对scMVAE的性能进行了全面的评估,并与scVI, Seurat, MOFA, IntNMF等多种方法进行了比较。
3.1 实验一:模拟数据集评估
作者生成了三个包含不同数量细胞类型、不同稀疏程度的模拟多组学数据集。
UMAP可视化显示,scMVAE(尤其是基于PoE和NN策略的版本)学习到的联合嵌入,能够最清晰地分离开不同的细胞类型,其效果显著优于MOFA, IntNMF等线性和矩阵分解方法,也优于单模态的scVI和Seurat(图A)。

在定量的聚类准确性评估中(ARI和NMI指标),scMVAE同样取得了最佳性能(图B)。在运行时间测试中,得益于其基于mini-batch的随机优化,scMVAE的运行时间远快于MOFA和IntNMF,展现了处理大规模数据的潜力(图C)。

3.2 实验二:真实细胞系混合数据集分析
作者应用scMVAE来整合一个包含四种人类细胞系(BJ, H1, K562, GM)混合的SNARE-seq数据集。
在细胞类型分离的可视化效果和定量的聚类评分(自定义的clustering score和AGI score)上,scMVAE和MOFA等联合学习方法均优于只使用单一模态的scVI或Seurat。然而,scMVAE的效果又显著优于线性的CCA和MOFA方法(图A-D)。
通过人为地增加数据稀疏度来测试模型的鲁棒性。结果显示,在各种稀疏度水平下,scMVAE的聚类准确率始终稳定地高于MOFA(图E, F),证明了其强大的抗噪声能力。

3.3 实验三:数据去噪与跨模态一致性增强
一个好的整合模型,不仅要能对齐细胞,还应该能利用联合信息来修复数据噪声,并增强不同模态间的一致性。
作者评估了经过不同方法去噪后,scRNA-seq和scATAC-seq数据之间的一致性。结果显示,经过scMVAE处理后的数据,其聚类一致性(Kappa系数)和特征表达相关性(Pearson/Spearman相关系数)都得到了最大程度的提升,显著高于原始数据、CCA、MOFA以及单模态的scVI(图A, B)。
进一步考察了模型恢复已知TF-TG(转录因子-靶基因)调控关系的能力。结果显示,在scMVAE(NN和PoE策略)去噪后的数据中,超过95%的已知调控关系都能被检测到(表现为正相关),而其他方法只能恢复一小部分(图C)。这强有力地证明了scMVAE的联合学习框架确实捕捉到了两种模态间真实的生物学关联。

3.4 实验四:大规模真实组织数据整合
作者将scMVAE应用于一个包含超过1万个细胞的小鼠大脑皮层SNARE-seq数据集,以验证其在复杂真实组织中的可扩展性和性能。
scMVAE成功地处理了这个大规模数据集,并生成了高质量的联合嵌入。与其他方法相比,scMVAE的联合嵌入能够最清晰地分离开不同的神经元亚型,其聚类评分(clustering score和AGI score)也最高(图A, B)。

基于scMVAE去噪后的数据推断了TF-TG调控网络。结果显示,预测出的调控关系在RegNetwork等已知的调控数据库中得到了显著的富集,例如,模型成功地为Rorb, Bcl11b等关键marker基因找到了它们已知的上游调控转录因子(图F)。
