使用totalVI进行单细胞多组学数据联合概率建模.

0. TL; DR

TotalVITotal Variational Inference)是一种端到端的深度概率生成模型,能够联合分析单细胞的 RNA 转录组和表面蛋白质组数据。该方法通过变分自编码器框架,显式建模 RNA 的技术噪声(如测序深度变异、有限灵敏度)和蛋白质数据的技术偏差(如背景抗体信号、非特异性结合)。

TotalVI 能够解耦蛋白质的前景与背景信号,整合不同批次或不同抗体面板的实验数据,插补缺失的蛋白质测量,并进行差异表达分析。作者在小鼠脾脏和淋巴结的 CITE-seq 数据集上验证了方法的有效性,展示了其在细胞亚型鉴定、批效应校正和跨模态相关性分析中的优越性能。

1. 背景介绍

1.1 单细胞多组学技术的发展

近年来,单细胞 RNA 测序(scRNA-seq)技术极大地推动了细胞异质性的研究,使得研究人员能够在全转录组水平上解析细胞类型和状态。然而,转录组水平并不总是与蛋白质丰度直接对应,而蛋白质才是细胞功能的直接执行者。流式细胞术(flow cytometry)长期以来一直是分析细胞表面蛋白质的金标准,但受限于荧光检测通道,只能同时检测少量标记蛋白。

CITE-seq 技术的出现弥合了这一差距。该技术通过使用结合有寡核苷酸条形码的抗体(barcoded antibodies),在单细胞水平上同时测量 RNA 表达和数百种表面蛋白质的丰度。这种方法不仅显著增加了可同时检测的蛋白质数量,还提供了与 scRNA-seq 兼容的高通量分析流程,为理解基因表达与细胞表型之间的关系提供了前所未有的机会。

1.2 数据分析的挑战

尽管 CITE-seq 提供了丰富的多模态数据,但其联合分析面临多重技术挑战:

2. totalVI 方法

TotalVI 是一个基于深度生成模型的统计框架,使用变分推断(variational inference)联合建模 RNA 和蛋白质计数数据。

2.1 模型架构与生成过程

TotalVI 的输入包括:RNA 计数矩阵 $X \in \mathbb{N}^{N \times G}$($N$ 个细胞,$G$ 个基因),蛋白质计数矩阵 $Y \in \mathbb{N}^{N \times T}$($T$ 种蛋白质),以及批次指示变量 $s_n \in {0,1}^B$($B$ 个批次)。模型假设每个细胞的观测数据由以下潜在变量生成:

⚪ RNA 似然函数

对于每个基因 $g$ 和细胞 $n$,TotalVI 假设观测计数 $x_{ng}$ 服从负二项分布(Negative Binomial):

\[x_{ng} \mid z_n, \ell_n, s_n \sim \text{NegativeBinomial}(\ell_n \rho_{ng}, \theta_g)\]

其中 $\rho_{ng} = f_\rho(z_n, s_n)$ 是通过解码器神经网络生成的归一化基因频率,$\theta_g$ 是基因特异性逆离散参数(inverse dispersion)。该建模策略与 scVI 类似,通过 $\ell_n$ 吸收测序深度变异,$z_n$ 捕获生物学变异。

⚪ 蛋白质似然函数

为建模蛋白质数据中的背景与前景信号,TotalVI 使用负二项混合分布(Negative Binomial Mixture):

\[y_{nt} \mid z_n, \beta_{nt}, s_n \sim \text{NegativeBinomialMixture}(\beta_{nt}, \beta_{nt}\alpha_{nt}, \pi_{nt})\]

其中 $\pi_{nt} = h_\pi(z_n, s_n)$ 是混合权重,表示观测计数来自背景成分的概率;$\alpha_{nt} = g_\alpha(z_n, s_n)$ 是前景偏移参数,确保前景成分的均值 $\beta_{nt}\alpha_{nt}$ 始终大于背景成分 $\beta_{nt}$;通过引入隐变量 $v_{nt} \sim \text{Bernoulli}(\pi_{nt})$ 指示计数来源($v_{nt}=1$ 为背景,$v_{nt}=0$ 为前景)。

该混合模型允许每个细胞-蛋白质对具有不同的背景概率,从而自适应地解耦技术噪声与真实生物学信号。

2.2 变分推断与优化

由于后验分布难以直接计算,TotalVI 使用变分自编码器(VAE)框架进行近似推断。编码器(encoder)神经网络将输入 $(x_n, y_n, s_n)$ 映射到潜在变量的近似后验分布参数:

\[q_\eta(\beta_n, z_n, \ell_n \mid x_n, y_n, s_n) = q_\eta(\beta_n \mid z_n, s_n) q_\eta(z_n \mid x_n, y_n, s_n) q_\eta(\ell_n \mid x_n, y_n, s_n)\]

模型通过最大化证据下界(ELBO, Evidence Lower Bound)来联合优化生成参数 $\nu$ 和变分参数 $\eta$:

\[\mathcal{L}(\eta, \nu) = \mathbb{E}_{q}[\log p_\nu(x_n, y_n \mid \beta_n, z_n, \ell_n, s_n)] - \text{KL}(q_\eta(z_n) \| p(z_n)) \\- \text{KL}(q_\eta(\ell_n) \| p(\ell_n \mid s_n)) - \mathbb{E}_{q(z_n)}[\text{KL}(q_\eta(\beta_n) \| p(\beta_n \mid s_n))]\]

训练采用随机梯度下降和 Adam 优化器,并使用 KL 退火(warm-up)策略避免陷入局部最优。

2.3 缺失数据与数据整合

TotalVI 通过 totalVI-union 模式处理不同抗体面板的数据整合。对于缺失的蛋白质测量,模型在编码时使用零填充,在解码时仅计算观测特征的 ELBO 项。这使得模型能够在保留所有蛋白质信息的同时,利用共享的潜在空间 $z_n$ 进行跨批次整合。此外,模型可以通过对缺失蛋白质的后验预测分布进行采样来实现插补(imputation):

\[\mathbb{E}[y_{nt}^* \mid C_n, s=s'] = \mathbb{E}_{q(z_n \mid C_n)}[\mathbb{E}_{p(y_{nt}^* \mid z_n, s=s', \beta_{nt})}[y_{nt}^*]]\]

2.4 下游分析任务

\[\text{BF}_{a,b}^g = \frac{p(|\lambda_{a,b}^g| \geq \delta \mid C_a, C_b)}{p(|\lambda_{a,b}^g| \leq \delta \mid C_a, C_b)}\]

3. 实验分析

作者使用小鼠脾脏和淋巴结(spleen and lymph node, SLN)的 CITE-seq 数据以及公共数据集(PBMC, MALT)评估 TotalVI 的性能。小鼠数据集包含4个样本:SLN111-D1SLN111-D2(111种抗体,两天重复)、SLN208-D1SLN208-D2(208种抗体,其中111种为子集)。

3.1 蛋白质背景解耦

作者首先验证了 TotalVI 区分蛋白质前景与背景的能力:

3.2 数据整合与批次校正

作者评估了 TotalVI 的整合性能:

3.3 差异表达分析

作者展示了 DE 分析结果:

3.4 B细胞异质性分析

作者深入分析了 B cell 亚群: