通过scVAEIT实现单细胞多模态混合整合与插补的鲁棒概率建模.
0. TL; DR
scVAEIT是一个用于马赛克式测量数据的多模态整合与插补的概率性变分自编码器模型。它引入了一个缺失掩码(missing mask),在训练过程中随机地遮盖掉一部分观测到的特征。模型被训练来根据未被遮盖的特征,去预测被遮盖的特征。
scVAEIT在插补缺失模态和特征方面表现出极高的准确性,并且能够鲁棒地处理与训练数据生物学上不同的新细胞类型。它在调整批次效应的同时,能很好地保留生物学变异,从而为整合后的数据集提供了更高质量的潜在表征。
1. 背景介绍
随着单细胞多组学技术的发展,我们手中的数据集变得越来越多样和复杂。一个日益普遍的场景是马赛克整合(mosaic integration):作者希望整合多个数据集,但这些数据集的测量面板并不完全相同。例如可能有:
- 一个DOGMA-seq数据集,同时测量了RNA、蛋白质和ATAC。
- 一个CITE-seq数据集,只测量了RNA和蛋白质。
- 一个ASAP-seq数据集,只测量了RNA和ATAC。
在这种马赛克式的场景下,数据整合的目标也变得更加复杂和宏大:
- 构建统一的潜在空间: 如何利用所有共享和非共享的特征,为所有细胞学习一个统一的、高质量的低维表示?
- 精准插补缺失模态/特征: 如何为CITE-seq数据补上缺失的ATAC信息?如何为DOGMA-seq中某个细胞碰巧未测到的某个蛋白质,进行准确的填空?
- 鲁棒的迁移学习: 如何将从一个大规模参考图谱上学到的知识,迁移到一个只测量了部分特征的新数据集上?
现有的整合方法在面对马赛克世界时,往往捉襟见肘:
- 基于矩阵分解的方法 (如 UINMF, StabMap): 它们通常只能捕捉模态间的线性关系,难以处理复杂的生物学过程,并且在迁移到新数据集时不够灵活。
- 基于深度生成模型的方法 (如totalVI, MultiVI): 它们在处理缺失特征时,通常采用简单地置零或忽略的策略,这会引入偏倚,并在缺失比例很高时导致性能急剧下降。
- 硬性对齐的风险:许多方法试图将不同模态硬性地投影到一个共享空间,但这容易导致信噪比低的模态被支配,产生过拟合。
为了攻克马赛克整合的难题,作者需要一个能够显式地建模和利用缺失性信息的全新框架。scVAEIT正是为此而生。
2. scVAEIT 方法
scVAEIT的核心思想是,通过引入一个随机掩码(missing mask),将无监督的VAE重构任务,巧妙地转化为一个有监督的条件生成(conditional generation)任务,从而学习到特征与模态间复杂的依赖关系。

scVAEIT的基础是一个变分自编码器。对于一个细胞$n$的完整多组学数据 $X_n$,scVAEIT首先引入一个二进制的掩码向量 $M_n$。$M_n$ 与 $X_n$ 维度相同。如果$M_n$的第$j$个元素为1,表示特征$j$是可见的(observed);如果为0,表示是被遮盖的(masked)。这样原始数据被分为了两部分:$X_{M_n^c}$(可见部分)和 $X_{M_n}$(被遮盖部分)。
scVAEIT的编码器接收可见数据 $X_{M_n^c}$ 和掩码 $M_n$ 作为输入。它的任务是学习一个条件后验分布 $q_\psi(Z_n | X_n, M_n)$,即在给定可见数据和缺失模式的条件下,推断出细胞的低维潜在表征 $Z_n$。
解码器则接收潜变量 $Z_n$、可见数据 $X_{M_n^c}$ 和掩码 $M_n$ 作为输入。它的任务是预测被遮盖的数据 $X_{M_n}$ 的条件分布 $p_\theta(X_{M_n} | Z_n, X_{M_n^c}, M_n)$。
真实掩码 ($M_a$) 代表数据中真实存在的缺失模式(例如,CITE-seq数据天然缺失ATAC模态)。在训练过程中,即使对于一个完整的数据点,作者也随机生成一个掩码 $M$,人为地遮盖掉一部分特征。随机掩码的优势:
- 学习条件依赖: 通过随机遮盖不同的特征组合,模型被迫学习到所有特征和模态之间复杂的条件依赖关系,而不仅仅是记忆训练数据。
- 强大的正则化: 随机mask本身就是一种非常有效的数据增强和正则化手段,它极大地降低了深度生成模型过拟合的风险。
- 灵活性和泛化能力: 这种训练方式使得模型能够泛化到任意的缺失模式,无论是缺失单个特征,还是缺失整个模态。
模型的训练目标是最大化一个加权的证据下界(ELBO)。这个ELBO巧妙地结合了插补(imputation)和重构(reconstruction)两个任务。
\[L := \beta L_M + (1-\beta) L_{recon}\]插补损失 ($L_M$) 最大化模型预测被遮盖部分的对数似然。这相当于一个有监督的学习任务,模型必须学会根据可见部分来推断不可见部分。
\[L_M \ge \mathbb{E}_{q_\psi(Z|X,M)}[\log p_{\theta_2}(X_M | Z, X_{M^c}, M)] - KL(q_\psi(Z|X,M) \| p_{\theta_1}(Z|X_{M^c}, M))\]重构损失 ($L_{recon}$) 最大化模型重构可见部分的对数似然。这是一个标准的VAE去噪任务。
scVAEIT为不同模态定制了不同的生成分布,如为RNA和蛋白质使用负二项分布,为ATAC-seq使用伯努利分布。
为了降低计算复杂度,scVAEIT在编码器和解码器的第一层和最后一层采用了子连接(subconnections),即不同模态(甚至不同染色体上的peaks)在进入网络时,先经过独立的子网络处理,再进行整合。
3. 实验分析
作者通过一系列精心设计的实验,全面评估了scVAEIT在跨模态翻译、三模态整合和马赛克整合等任务中的性能。
3.1 实验一:跨模态翻译与迁移学习
作者在一个CITE-seq PBMC数据集上,通过留一细胞类型的交叉验证,测试了模型的跨模态翻译能力,并进一步测试了其向两个外部数据集(一个来自不同组织CBMC,一个来自不同技术REAP-seq)的迁移学习能力。
- 图A (对未见细胞类型的插补): 结果显示,scVAEIT在对训练集中从未见过的细胞类型进行跨模态插补时,其准确性(相关性和RMSE)全面优于Seurat v4和totalVI。这证明了scVAEIT学习到的是普适的RNA-蛋白质对应关系,而非简单地记忆训练数据。
- 图B, C (向外部数据集的迁移): 在将模型应用于两个外部数据集时,scVAEIT的蛋白质插补准确性同样显著高于其他两种方法。这凸显了其强大的泛化和迁移学习能力。

3.2 实验二:三模态整合与插补
作者在一个同时测量了RNA、蛋白质和ATAC的DOGMA-seq数据集上,评估了scVAEIT处理三种模态的能力。
- 图A, B (基因和ATAC插补): 在给定另外两种模态,插补缺失的基因或ATAC的任务中,scVAEIT的性能显著优于Seurat 3-WNN和MultiVI。
- 图C (蛋白质插补): 作者通过散点图直观地展示了蛋白质插补的差异。Seurat由于其基于近邻的策略,错误地将CD8 T细胞中高表达的CD8a蛋白丰度,迁移到了与之相似的CD4 T细胞上,造成了严重的过高估计。而scVAEIT则能够准确地为CD4 T细胞插补出正确的、低水平的CD8a表达。这生动地展示了scVAEIT在避免过拟合和错误信息传递方面的优势。

3.3 实验三:对缺失特征的鲁棒性
作者通过在测试时随机移除不同比例的输入特征,来评估模型在面对模型不匹配(model misspecification)时的鲁棒性。
结果显示,随着缺失特征比例的增加,totalVI和MultiVI的性能急剧下降,稳定性也变差。相比之下,scVAEIT的性能则异常稳定,几乎不受缺失特征的影响。Seurat作为非参数方法,也表现出较好的稳定性,但其整体精度低于scVAEIT。

这充分证明了scVAEIT的随机掩码训练策略为其带来了鲁棒性,使其能够从容应对各种不完整的输入数据。
3.4 实验四:多源、多模态的马赛克整合
作者整合了三个来源不同、模态组合也不同的PBMC数据集(DOGMA-seq, CITE-seq, ASAP-seq)。
- 图A (蛋白质插补): 在对这个复杂的马赛克数据集进行蛋白质插补时,scVAEIT的准确性再次全面优于为此场景设计的Seurat 3-WNN方法。
- 图B (联合嵌入可视化): scVAEIT成功地将三个异构的数据集整合到了一个统一的UMAP空间中,清晰地分开了不同的细胞类型,并保留了T细胞在受刺激前后的生物学差异。相比之下,Seurat+Harmony的整合则出现了过度校正,错误地将受刺激和未受刺激的T细胞混合在了一起。UINMF则未能有效地去除批次效应。
- 图C (Marker蛋白表达): 在scVAEIT的嵌入空间中,CD3等marker蛋白的表达模式清晰地对应了T细胞的分布,进一步验证了整合的准确性。
