MultiVI: 多模态数据整合的深度生成模型.

paper：MultiVI: deep generative model for the integration of multimodal data

0. TL; DR

MultiVI 是一个用于分析多组学数据，并能将其与单模态数据进行整合的概率性深度生成模型。MultiVI的核心是一个多模态VAE框架，它能同时处理一个数据集中存在的配对多组学细胞和单模态细胞，并能够为缺失的模态提供高质量的插补。

基于MultiVI的插补，能够在一个完全没有该模态信息的细胞亚群中，准确地进行差异表达/可及性分析。这极大地扩展了现有单模态数据集的分析维度。MultiVI的架构是模块化的，作者展示了其成功整合RNA、ATAC和表面蛋白三种模态数据的能力。

1. 背景介绍

同时测量单个细胞的多种分子特性（如转录组、染色质可及性），为研究细胞多样性提供了强大的手段。然而，如何有效分析这些多组学数据，并利用它们来增强更常见的单模态数据集，仍然是一个挑战。

一个强大的计算框架，不仅要能整合这些配对数据，还应该能利用它们来做更多的事情。一个极具吸引力的应用方向是，利用这些宝贵但通常数量较少的配对多组学数据，来增强和补全手中海量的、更廉价的单模态数据集。这要求一个计算模型能实现两个层面的分析：

学习统一的低维表征：模型需要能够为所有细胞（无论其拥有哪种模态的数据）学习一个统一的、低维的联合嵌入。这个嵌入应该能融合所有模态的信息，用于更精准的细胞聚类和可视化。
生成高保真的高维数据：模型还应能为每个细胞生成一个标准化的、经过批次校正的高维表达谱。对于配对细胞，这是去噪；对于单模态细胞，这就是插补——即预测其缺失的模态。

MultiVI 正是为实现这两个目标而设计的。它是一个基于深度生成模型的概率框架，旨在无缝地整合配对与非配对数据，并为缺失的模态提供可靠的插补和不确定性估计。

2. MultiVI 模型

MultiVI的架构建立在scvi-tools生态中已有的、成熟的单模态深度生成模型（如scVI, PeakVI, totalVI）之上。其核心思想是通过为每个模态学习独立的潜在表征，然后将它们融合为一个联合表征。

MultiVI的整体框架是一个多模态VAE，以整合scRNA-seq和scATAC-seq为例，其包含两个主要部分：

对于一个同时拥有两种模态的细胞，其RNA数据 $X_R$ 和ATAC数据 $X_A$ 会被分别送入两个独立的模态特异性编码器 (Modality-specific Encoders)。RNA编码器学习一个后验分布 $q(z_R|X_R, S)$，ATAC编码器学习一个后验分布 $q(z_A|X_A, S)$。这里的$S$是批次等协变量信息。$z_R$和$z_A$是两个模态特异性的、经过批次校正的潜在表征。

为了得到一个反映两种模态信息的联合表征$z$，MultiVI采用了一种简单而有效的方法：直接取两个模态特异性表征的平均值。

\[z_c = \frac{z_A^c + z_R^c}{2}\]

在训练过程中，模型会通过一个对称KL散度损失项，来惩罚$z_R$和$z_A$之间的距离，从而促使它们对齐。

\[d(Z_c^A, Z_c^R) = \text{symmKL}(q(z_c^A), q(z_c^R)) \\= KL(q(z_c^A) \| q(z_c^R)) + KL(q(z_c^R) \| q(z_c^A))\]

对于只有单一模态的细胞，其联合表征$z$就直接使用其拥有的那个模态的表征（即$z_R$或$z_A$）。

联合表征$z$被送入两个独立的模态特异性解码器 (Modality-specific Decoders)，分别用于重构RNA和ATAC数据。

RNA解码器：遵循scVI的设计，使用负二项分布（Negative Binomial）来建模RNA的计数数据，以处理其过离散性。
ATAC解码器：遵循PeakVI的设计，使用伯努利分布（Bernoulli）来建模ATAC的二值化（开放/关闭）信号。

这种为每个模态量身定制的、符合其数据特性的概率分布建模，是MultiVI生成高质量数据的关键。

为了进一步促进不同模态嵌入的混合，MultiVI还引入了一个对抗性训练组件。一个判别器被训练来区分一个潜在嵌入是来自RNA编码器还是ATAC编码器，而编码器则努力生成让判别器无法区分的嵌入。

MultiVI通过最大化证据下界（ELBO）来进行训练。其损失函数主要包括：

重构损失：即观测数据的对数似然，衡量模型生成的数据与真实数据的吻合程度。
KL散度损失： VAE的标准正则项，促使潜在分布接近标准正态分布先验。
对称KL散度损失：用于对齐不同模态的潜在表征。
对抗性损失：来自于判别器与编码器的博弈。

训练完成后，MultiVI模型可以用于多种下游任务：

联合嵌入：所有细胞（无论配对与否）的$z$向量构成了统一的低维嵌入，可用于聚类和可视化。
数据去噪与插补：对于任意一个细胞，可以将其送入编码器得到$z$，再通过解码器生成其所有模态的标准化、去噪后的表达谱。对于单模态细胞，这就实现了跨模态插补。
不确定性估计：由于MultiVI是概率生成模型，可以通过从潜在空间多次采样并解码，来估计每个插补值的不确定性（如标准差）。

3. 实验分析

作者在多个真实的和人工构建的多组学数据集上，系统性地评估了MultiVI的各项能力。

3.1 实验一：整合配对与非配对数据

作者使用一个10x Multiome PBMC数据集，通过人工拆分的方式，构造了包含不同比例非配对细胞（即只有RNA或只有ATAC数据）的混合数据集。比较了MultiVI与Cobolt（另一个基于PoE的深度模型）以及三种基于Seurat的策略。

在衡量模态混合程度的LISI指标上，MultiVI和Cobolt这两个深度生成模型，在大多数非配对比例下，其性能都优于基于Seurat的策略（图d）。

在衡量配对细胞对齐精度的邻居排序距离指标上（越低越好），MultiVI和Cobolt的性能远超所有基于Seurat的策略，并且MultiVI在非配对比例较高时表现更佳（图e）。

作者测试了多种替代性的潜在空间融合策略（如MMD损失、加权平均等），发现模型性能对这些设计选择不敏感，证明了MultiVI当前架构的鲁棒性。

这些结果表明，MultiVI能够有效地整合包含配对和非配对细胞的混合数据集，在实现良好混合的同时，保持了最高的对齐精度。

3.2 实验二：整合真实世界的多来源数据

作者挑战了一个更真实的场景：整合来自三个不同研究、不同技术平台（10x Multiome, scATAC-seq, scRNA-seq多技术混合）的PBMC数据集。

在对批次和技术平台信息进行建模后，MultiVI成功地将这三个来源迥异的数据集整合到了一个统一的潜在空间中。UMAP图显示，数据按细胞类型而非来源或技术平台聚集，实现了完美的整合效果。

3.3 实验三：带不确定性估计的跨模态插补

作者使用人工拆分的PBMC数据集，评估了MultiVI插补缺失模态的能力。

MultiVI插补出的RNA和ATAC谱与真实的测量值（或经过平滑处理的金标准）具有高度的相关性（RNA Spearman相关性0.8，ATAC 0.86）（图a, b）。

模型为插补值给出的不确定性（标准差）与真实的插补误差高度相关。这意味着，当模型对一个预测不确定时，这个预测很可能确实是错的。这种能力对于下游分析的可靠性至关重要（图c）。

作者发现了一小部分高置信度-高误差的插补点。深入分析发现，在这些点上，MultiVI的预测与周围相似细胞的平滑信号一致，而与原始观测值相反。这强烈暗示，这些错误的插补，实际上可能是纠正了原始数据中的技术性假阳性或假阴性（图d, e）。

3.4 实验四：缺失模态的下游分析

作者设计了一个极限测试：在一个数据集中，将某个细胞类型（如B细胞）的所有RNA数据都移除，只保留其ATAC数据。然后用MultiVI来为这个只有ATAC的B细胞群插补出RNA表达谱，并进行差异表达分析。

尽管模型在训练时从未见过B细胞的RNA数据，但它插补出的B细胞特异性高表达基因，与使用真实数据找到的差异基因高度一致（Pearson相关性0.74）（图a）。模型成功识别出了CD79A等已知的B细胞marker（图c）。

这个结果表明，可以利用已有的多组学数据，来为海量的、只有单一模态的历史数据集赋予新的模态，并直接在这些插补出的数据上进行可靠的生物学发现。

3.5 实验五：扩展至三模态数据整合

作者展示了MultiVI的模块化能力，将其扩展以整合包含RNA、ATAC和表面蛋白三种模态的DOGMA-seq和TEA-seq数据。

MultiVI能够轻松地处理三种模态，并生成一个同样高质量的联合嵌入，其性能与Seurat WNN和MOFA+等SOTA方法相当（图d）。

即使在数据以各种不完整的组合形式存在时（如只有RNA+ATAC，或只有ATAC+蛋白），MultiVI依然能够稳健地将所有细胞整合在一起（图e, f）。