MultiVI: 多模态数据整合的深度生成模型.

0. TL; DR

MultiVI 是一个用于分析多组学数据,并能将其与单模态数据进行整合的概率性深度生成模型。MultiVI的核心是一个多模态VAE框架,它能同时处理一个数据集中存在的配对多组学细胞和单模态细胞,并能够为缺失的模态提供高质量的插补。

基于MultiVI的插补,能够在一个完全没有该模态信息的细胞亚群中,准确地进行差异表达/可及性分析。这极大地扩展了现有单模态数据集的分析维度。MultiVI的架构是模块化的,作者展示了其成功整合RNA、ATAC和表面蛋白三种模态数据的能力。

1. 背景介绍

同时测量单个细胞的多种分子特性(如转录组、染色质可及性),为研究细胞多样性提供了强大的手段。然而,如何有效分析这些多组学数据,并利用它们来增强更常见的单模态数据集,仍然是一个挑战。

一个强大的计算框架,不仅要能整合这些配对数据,还应该能利用它们来做更多的事情。一个极具吸引力的应用方向是,利用这些宝贵但通常数量较少的配对多组学数据,来增强和补全手中海量的、更廉价的单模态数据集。这要求一个计算模型能实现两个层面的分析:

  1. 学习统一的低维表征:模型需要能够为所有细胞(无论其拥有哪种模态的数据)学习一个统一的、低维的联合嵌入。这个嵌入应该能融合所有模态的信息,用于更精准的细胞聚类和可视化。
  2. 生成高保真的高维数据:模型还应能为每个细胞生成一个标准化的、经过批次校正的高维表达谱。对于配对细胞,这是去噪;对于单模态细胞,这就是插补——即预测其缺失的模态。

MultiVI 正是为实现这两个目标而设计的。它是一个基于深度生成模型的概率框架,旨在无缝地整合配对与非配对数据,并为缺失的模态提供可靠的插补和不确定性估计。

2. MultiVI 模型

MultiVI的架构建立在scvi-tools生态中已有的、成熟的单模态深度生成模型(如scVI, PeakVI, totalVI)之上。其核心思想是通过为每个模态学习独立的潜在表征,然后将它们融合为一个联合表征。

MultiVI的整体框架是一个多模态VAE,以整合scRNA-seqscATAC-seq为例,其包含两个主要部分:

对于一个同时拥有两种模态的细胞,其RNA数据 $X_R$ 和ATAC数据 $X_A$ 会被分别送入两个独立的模态特异性编码器 (Modality-specific Encoders)RNA编码器学习一个后验分布 $q(z_R|X_R, S)$,ATAC编码器学习一个后验分布 $q(z_A|X_A, S)$。这里的$S$是批次等协变量信息。$z_R$和$z_A$是两个模态特异性的、经过批次校正的潜在表征。

为了得到一个反映两种模态信息的联合表征$z$,MultiVI采用了一种简单而有效的方法:直接取两个模态特异性表征的平均值。

\[z_c = \frac{z_A^c + z_R^c}{2}\]

在训练过程中,模型会通过一个对称KL散度损失项,来惩罚$z_R$和$z_A$之间的距离,从而促使它们对齐。

\[d(Z_c^A, Z_c^R) = \text{symmKL}(q(z_c^A), q(z_c^R)) \\= KL(q(z_c^A) \| q(z_c^R)) + KL(q(z_c^R) \| q(z_c^A))\]

对于只有单一模态的细胞,其联合表征$z$就直接使用其拥有的那个模态的表征(即$z_R$或$z_A$)。

联合表征$z$被送入两个独立的模态特异性解码器 (Modality-specific Decoders),分别用于重构RNAATAC数据。

这种为每个模态量身定制的、符合其数据特性的概率分布建模,是MultiVI生成高质量数据的关键。

为了进一步促进不同模态嵌入的混合,MultiVI还引入了一个对抗性训练组件。一个判别器被训练来区分一个潜在嵌入是来自RNA编码器还是ATAC编码器,而编码器则努力生成让判别器无法区分的嵌入。

MultiVI通过最大化证据下界(ELBO)来进行训练。其损失函数主要包括:

训练完成后,MultiVI模型可以用于多种下游任务:

3. 实验分析

作者在多个真实的和人工构建的多组学数据集上,系统性地评估了MultiVI的各项能力。

3.1 实验一:整合配对与非配对数据

作者使用一个10x Multiome PBMC数据集,通过人工拆分的方式,构造了包含不同比例非配对细胞(即只有RNA或只有ATAC数据)的混合数据集。比较了MultiVICobolt(另一个基于PoE的深度模型)以及三种基于Seurat的策略。

在衡量模态混合程度的LISI指标上,MultiVICobolt这两个深度生成模型,在大多数非配对比例下,其性能都优于基于Seurat的策略(图d)。

在衡量配对细胞对齐精度的邻居排序距离指标上(越低越好),MultiVICobolt的性能远超所有基于Seurat的策略,并且MultiVI在非配对比例较高时表现更佳(图e)。

作者测试了多种替代性的潜在空间融合策略(如MMD损失、加权平均等),发现模型性能对这些设计选择不敏感,证明了MultiVI当前架构的鲁棒性。

这些结果表明,MultiVI能够有效地整合包含配对和非配对细胞的混合数据集,在实现良好混合的同时,保持了最高的对齐精度。

3.2 实验二:整合真实世界的多来源数据

作者挑战了一个更真实的场景:整合来自三个不同研究、不同技术平台(10x Multiome, scATAC-seq, scRNA-seq多技术混合)的PBMC数据集。

在对批次和技术平台信息进行建模后,MultiVI成功地将这三个来源迥异的数据集整合到了一个统一的潜在空间中。UMAP图显示,数据按细胞类型而非来源或技术平台聚集,实现了完美的整合效果。

3.3 实验三:带不确定性估计的跨模态插补

作者使用人工拆分的PBMC数据集,评估了MultiVI插补缺失模态的能力。

MultiVI插补出的RNAATAC谱与真实的测量值(或经过平滑处理的金标准)具有高度的相关性(RNA Spearman相关性0.8,ATAC 0.86)(图a, b)。

模型为插补值给出的不确定性(标准差)与真实的插补误差高度相关。这意味着,当模型对一个预测不确定时,这个预测很可能确实是错的。这种能力对于下游分析的可靠性至关重要(图c)。

作者发现了一小部分高置信度-高误差的插补点。深入分析发现,在这些点上,MultiVI的预测与周围相似细胞的平滑信号一致,而与原始观测值相反。这强烈暗示,这些错误的插补,实际上可能是纠正了原始数据中的技术性假阳性或假阴性(图d, e)。

3.4 实验四:缺失模态的下游分析

作者设计了一个极限测试:在一个数据集中,将某个细胞类型(如B细胞)的所有RNA数据都移除,只保留其ATAC数据。然后用MultiVI来为这个只有ATAC的B细胞群插补出RNA表达谱,并进行差异表达分析。

尽管模型在训练时从未见过B细胞的RNA数据,但它插补出的B细胞特异性高表达基因,与使用真实数据找到的差异基因高度一致(Pearson相关性0.74)(图a)。模型成功识别出了CD79A等已知的B细胞marker(图c)。

这个结果表明,可以利用已有的多组学数据,来为海量的、只有单一模态的历史数据集赋予新的模态,并直接在这些插补出的数据上进行可靠的生物学发现。

3.5 实验五:扩展至三模态数据整合

作者展示了MultiVI的模块化能力,将其扩展以整合包含RNAATAC和表面蛋白三种模态的DOGMA-seqTEA-seq数据。

MultiVI能够轻松地处理三种模态,并生成一个同样高质量的联合嵌入,其性能与Seurat WNNMOFA+SOTA方法相当(图d)。

即使在数据以各种不完整的组合形式存在时(如只有RNA+ATAC,或只有ATAC+蛋白),MultiVI依然能够稳健地将所有细胞整合在一起(图e, f)。