MultiVI: 多模态数据整合的深度生成模型.
0. TL; DR
MultiVI 是一个用于分析多组学数据,并能将其与单模态数据进行整合的概率性深度生成模型。MultiVI的核心是一个多模态VAE框架,它能同时处理一个数据集中存在的配对多组学细胞和单模态细胞,并能够为缺失的模态提供高质量的插补。
基于MultiVI的插补,能够在一个完全没有该模态信息的细胞亚群中,准确地进行差异表达/可及性分析。这极大地扩展了现有单模态数据集的分析维度。MultiVI的架构是模块化的,作者展示了其成功整合RNA、ATAC和表面蛋白三种模态数据的能力。
1. 背景介绍
同时测量单个细胞的多种分子特性(如转录组、染色质可及性),为研究细胞多样性提供了强大的手段。然而,如何有效分析这些多组学数据,并利用它们来增强更常见的单模态数据集,仍然是一个挑战。
一个强大的计算框架,不仅要能整合这些配对数据,还应该能利用它们来做更多的事情。一个极具吸引力的应用方向是,利用这些宝贵但通常数量较少的配对多组学数据,来增强和补全手中海量的、更廉价的单模态数据集。这要求一个计算模型能实现两个层面的分析:
- 学习统一的低维表征:模型需要能够为所有细胞(无论其拥有哪种模态的数据)学习一个统一的、低维的联合嵌入。这个嵌入应该能融合所有模态的信息,用于更精准的细胞聚类和可视化。
- 生成高保真的高维数据:模型还应能为每个细胞生成一个标准化的、经过批次校正的高维表达谱。对于配对细胞,这是去噪;对于单模态细胞,这就是插补——即预测其缺失的模态。
MultiVI 正是为实现这两个目标而设计的。它是一个基于深度生成模型的概率框架,旨在无缝地整合配对与非配对数据,并为缺失的模态提供可靠的插补和不确定性估计。
2. MultiVI 模型
MultiVI的架构建立在scvi-tools生态中已有的、成熟的单模态深度生成模型(如scVI, PeakVI, totalVI)之上。其核心思想是通过为每个模态学习独立的潜在表征,然后将它们融合为一个联合表征。
MultiVI的整体框架是一个多模态VAE,以整合scRNA-seq和scATAC-seq为例,其包含两个主要部分:

对于一个同时拥有两种模态的细胞,其RNA数据 $X_R$ 和ATAC数据 $X_A$ 会被分别送入两个独立的模态特异性编码器 (Modality-specific Encoders)。RNA编码器学习一个后验分布 $q(z_R|X_R, S)$,ATAC编码器学习一个后验分布 $q(z_A|X_A, S)$。这里的$S$是批次等协变量信息。$z_R$和$z_A$是两个模态特异性的、经过批次校正的潜在表征。
为了得到一个反映两种模态信息的联合表征$z$,MultiVI采用了一种简单而有效的方法:直接取两个模态特异性表征的平均值。
\[z_c = \frac{z_A^c + z_R^c}{2}\]在训练过程中,模型会通过一个对称KL散度损失项,来惩罚$z_R$和$z_A$之间的距离,从而促使它们对齐。
\[d(Z_c^A, Z_c^R) = \text{symmKL}(q(z_c^A), q(z_c^R)) \\= KL(q(z_c^A) \| q(z_c^R)) + KL(q(z_c^R) \| q(z_c^A))\]对于只有单一模态的细胞,其联合表征$z$就直接使用其拥有的那个模态的表征(即$z_R$或$z_A$)。
联合表征$z$被送入两个独立的模态特异性解码器 (Modality-specific Decoders),分别用于重构RNA和ATAC数据。
- RNA解码器: 遵循scVI的设计,使用负二项分布(Negative Binomial)来建模RNA的计数数据,以处理其过离散性。
- ATAC解码器: 遵循PeakVI的设计,使用伯努利分布(Bernoulli)来建模ATAC的二值化(开放/关闭)信号。
这种为每个模态量身定制的、符合其数据特性的概率分布建模,是MultiVI生成高质量数据的关键。
为了进一步促进不同模态嵌入的混合,MultiVI还引入了一个对抗性训练组件。一个判别器被训练来区分一个潜在嵌入是来自RNA编码器还是ATAC编码器,而编码器则努力生成让判别器无法区分的嵌入。
MultiVI通过最大化证据下界(ELBO)来进行训练。其损失函数主要包括:
- 重构损失:即观测数据的对数似然,衡量模型生成的数据与真实数据的吻合程度。
- KL散度损失: VAE的标准正则项,促使潜在分布接近标准正态分布先验。
- 对称KL散度损失:用于对齐不同模态的潜在表征。
- 对抗性损失:来自于判别器与编码器的博弈。
训练完成后,MultiVI模型可以用于多种下游任务:
- 联合嵌入:所有细胞(无论配对与否)的$z$向量构成了统一的低维嵌入,可用于聚类和可视化。
- 数据去噪与插补:对于任意一个细胞,可以将其送入编码器得到$z$,再通过解码器生成其所有模态的标准化、去噪后的表达谱。对于单模态细胞,这就实现了跨模态插补。
- 不确定性估计:由于MultiVI是概率生成模型,可以通过从潜在空间多次采样并解码,来估计每个插补值的不确定性(如标准差)。
3. 实验分析
作者在多个真实的和人工构建的多组学数据集上,系统性地评估了MultiVI的各项能力。
3.1 实验一:整合配对与非配对数据
作者使用一个10x Multiome PBMC数据集,通过人工拆分的方式,构造了包含不同比例非配对细胞(即只有RNA或只有ATAC数据)的混合数据集。比较了MultiVI与Cobolt(另一个基于PoE的深度模型)以及三种基于Seurat的策略。
在衡量模态混合程度的LISI指标上,MultiVI和Cobolt这两个深度生成模型,在大多数非配对比例下,其性能都优于基于Seurat的策略(图d)。
在衡量配对细胞对齐精度的邻居排序距离指标上(越低越好),MultiVI和Cobolt的性能远超所有基于Seurat的策略,并且MultiVI在非配对比例较高时表现更佳(图e)。
作者测试了多种替代性的潜在空间融合策略(如MMD损失、加权平均等),发现模型性能对这些设计选择不敏感,证明了MultiVI当前架构的鲁棒性。
这些结果表明,MultiVI能够有效地整合包含配对和非配对细胞的混合数据集,在实现良好混合的同时,保持了最高的对齐精度。

3.2 实验二:整合真实世界的多来源数据
作者挑战了一个更真实的场景:整合来自三个不同研究、不同技术平台(10x Multiome, scATAC-seq, scRNA-seq多技术混合)的PBMC数据集。
在对批次和技术平台信息进行建模后,MultiVI成功地将这三个来源迥异的数据集整合到了一个统一的潜在空间中。UMAP图显示,数据按细胞类型而非来源或技术平台聚集,实现了完美的整合效果。

3.3 实验三:带不确定性估计的跨模态插补
作者使用人工拆分的PBMC数据集,评估了MultiVI插补缺失模态的能力。
MultiVI插补出的RNA和ATAC谱与真实的测量值(或经过平滑处理的金标准)具有高度的相关性(RNA Spearman相关性0.8,ATAC 0.86)(图a, b)。
模型为插补值给出的不确定性(标准差)与真实的插补误差高度相关。这意味着,当模型对一个预测不确定时,这个预测很可能确实是错的。这种能力对于下游分析的可靠性至关重要(图c)。
作者发现了一小部分高置信度-高误差的插补点。深入分析发现,在这些点上,MultiVI的预测与周围相似细胞的平滑信号一致,而与原始观测值相反。这强烈暗示,这些错误的插补,实际上可能是纠正了原始数据中的技术性假阳性或假阴性(图d, e)。

3.4 实验四:缺失模态的下游分析
作者设计了一个极限测试:在一个数据集中,将某个细胞类型(如B细胞)的所有RNA数据都移除,只保留其ATAC数据。然后用MultiVI来为这个只有ATAC的B细胞群插补出RNA表达谱,并进行差异表达分析。
尽管模型在训练时从未见过B细胞的RNA数据,但它插补出的B细胞特异性高表达基因,与使用真实数据找到的差异基因高度一致(Pearson相关性0.74)(图a)。模型成功识别出了CD79A等已知的B细胞marker(图c)。
这个结果表明,可以利用已有的多组学数据,来为海量的、只有单一模态的历史数据集赋予新的模态,并直接在这些插补出的数据上进行可靠的生物学发现。

3.5 实验五:扩展至三模态数据整合
作者展示了MultiVI的模块化能力,将其扩展以整合包含RNA、ATAC和表面蛋白三种模态的DOGMA-seq和TEA-seq数据。
MultiVI能够轻松地处理三种模态,并生成一个同样高质量的联合嵌入,其性能与Seurat WNN和MOFA+等SOTA方法相当(图d)。

即使在数据以各种不完整的组合形式存在时(如只有RNA+ATAC,或只有ATAC+蛋白),MultiVI依然能够稳健地将所有细胞整合在一起(图e, f)。
