多视角隐变量模型揭示了复杂组织中成对多模态单细胞数据的细胞异质性.

0. TL; DR

VIMCCA是一个基于变分辅助的多视角典型相关性分析(variational-assisted multi-view canonical correlation analysis)的单细胞多组学配对数据整合框架。VIMCCA假设存在一个共同的潜变量,通过两个独立的、模态特异性的非线性函数将共享的潜变量映射到各自的高维观测空间,利用变分推断联合地学习一个推断模型和两个模态特异性的生成模型,从而高效地求解这个非线性模型。

在四个来自不同技术平台的配对多组学数据集上,作者将VIMCCA与10种SOTA算法进行了比较。结果表明,VIMCCA能够更可靠、更准确地整合各类联合分析数据,从而在下游分析中展现出更强的能力,特别是在识别新的或罕见的细胞亚群方面,其性能优于现有广泛使用的方法。

1. 背景介绍

单细胞测序技术的发展,使我们能够以前所未有的分辨率,在单个细胞中量化基因表达、染色质可及性、DNA甲基化等多种分子特征。然而,任何单一模态的数据都只能提供细胞状态的一个侧影。例如,仅通过RNA分析,很难区分某些T细胞亚群。

联合分析(joint-modality)技术,如CITE-seqSNARE-seq10x Multiome,使我们能够同时测量同一个细胞的多种模态。这为我们从多个角度审视细胞、理解其异质性和功能提供了宝贵的机会。

然而,如何有效地整合这些配对(paired)的多组学数据,仍然是一个巨大的挑战。一个核心问题是,如何从这些异构的模态中,推断出一个能够解释它们共同变异来源的、准确的低维细胞表征。

现有的整合方法虽然众多,但大多存在一些局限性:

为了克服这些挑战,作者提出了一个统一的、基于变分推断和多视角子空间学习的计算框架VIMCCA。它旨在通过一个严谨的统计模型,更精准地学习配对多组学数据的联合表征,从而提升下游分析的可靠性和准确性。

2. VIMCCA 模型

VIMCCA的核心是一个多视角潜变量模型(multi-view latent variable model),它将经典的CCA思想与深度学习和变分推断进行了巧妙的结合。

假设有一个配对的多组学数据集 $D = {X, Y}$,其中 $X$ 是scRNA-seq表达矩阵,$Y$ 是另一种模态(如表面蛋白或ATAC-seq)的矩阵。

作者假设存在一个共享的、低维的潜变量(latent variable) $z$,它代表了细胞真实、内在的生物学状态。观测到的两种模态数据 $x_i$ 和 $y_i$,都是由这个共同的 $z_i$ 通过两个模态特异性的非线性函数生成的。

\[x_i = f_x(z_i; \theta_x) + \epsilon_x \\ y_i = f_y(z_i; \theta_y) + \epsilon_y\]

潜变量 $z_i$ 被假设服从一个标准多维正态分布先验,即 $z_i \sim \mathcal{N}(0, I_d)$。观测数据 $x_i$ 和 $y_i$ 则是在非线性变换的基础上,加上一个高斯噪声 $\epsilon$ 生成的,即 $\epsilon_x \sim \mathcal{N}(0, \sigma^2 I_p)$ 和 $\epsilon_y \sim \mathcal{N}(0, \sigma^2 I_q)$。

这里的非线性函数 $f_x(\cdot)$ 和 $f_y(\cdot)$ 是通过两个独立的深度神经网络(即解码器)来实现的。它们负责将低维的 $z_i$ 映射回高维的观测空间。

这个模型可以被看作是概率CCA(PCCA)的一个非线性扩展,它通过深度网络取代了CCA中的线性变换,从而能捕捉更复杂的模态间关系。

由于非线性函数的存在,上述模型的边际似然 $p_\theta(X, Y)$ 是难以直接计算的(intractable)。因此,作者采用变分推断(variational inference)的方法来近似求解。

作者引入一个可学习的变分分布 $q_\phi(z_i|x_i)$,来近似真实的后验分布 $p_\theta(z_i|x_i, y_i)$。这个变分分布通过一个编码器(encoder)深度神经网络来实现。这里的变分分布只以 $x_i$(即scRNA-seq数据)为条件。这是因为scRNA-seq通常比其他模态包含更丰富、更具区分度的信息。

模型的训练目标是最大化证据下界(Evidence Lower Bound, ELBO) $L(\theta, \phi; x_i, y_i)$。ELBO可以被分解为两部分:

\[L(\theta, \phi; x_i, y_i) = -D_{KL}(q_\phi(z_i|x_i) \| p(z_i)) + k \mathbb{E}_{q_\phi(z_i|x_i)}[\log p_\theta(x_i|z_i) + \log p_\theta(y_i|z_i)]\]

第一项是KL散度,它是一个正则项,促使学习到的后验分布接近于先验分布。第二项是期望重构误差,它衡量了从潜变量 $z_i$ 重构出 $x_i$ 和 $y_i$ 的好坏程度。超参数 $k$ 用于平衡这两项。

作者使用随机梯度变分贝叶斯 (SGVB)估计器和重参数化技巧(reparameterization trick),通过mini-batch随机梯度下降来高效地优化ELBO,从而联合学习编码器和解码器的参数。

训练完成后,作者就可以使用训练好的编码器,将任何细胞的scRNA-seq数据 $x_i$ 输入,得到其在共享潜在空间中的低维表征 $z_i$,用于各种下游分析。

3. 实验分析

作者在四个来自不同技术平台(10x Multiome, 10x Immune Profiling, CITE-seq, Paired-seq)的真实配对多组学数据集上,对VIMCCA的性能进行了全面的评估,并与PCA, scVAE, scVI, PeakVI, scMVAE, Cobolt, Seurat v4, totalVI, CiteFuse等10种SOTA方法进行了比较。

3.1 实验一:整合10x Multiome数据 (RNA + ATAC)

作者首先在一个包含约1万个人类PBMC(外周血单个核细胞)的10x Multiome数据集上应用了VIMCCA

仅使用RNA数据(scVI, scVAE)无法很好地区分CD4 TEMTreg细胞;而仅使用ATAC数据(PCA)则无法区分BasophilCD14 Mono细胞(图A-E)。经过VIMCCA整合后,所有的细胞类型都在UMAP图上得到了清晰的分离(图H)。

基于VIMCCA的聚类结果,作者不仅识别出了所有已知的PBMC细胞类型,还发现了三个新的、罕见的细胞亚群:Basophil细胞、CD4 TSCM细胞和pre-B细胞。通过marker基因(如RAB31, LEF1, CD44等)的表达验证,证实了这些新亚群的生物学真实性。

作者将VIMCCASeurat v4的聚类结果,与一个独立的bulk RNA-seq参考数据集进行比较。结果显示,在14个共享的细胞类型中,VIMCCA注释的细胞,其伪bulk表达谱与真实bulk表达谱的皮尔逊相关性,几乎全面高于Seurat v4

3.2 实验二:整合10x免疫图谱数据 (RNA + 蛋白)

作者接着将VIMCCA应用于一个包含约8千个PBMC的10x免疫图谱数据集,该数据集同时测量了基因表达和17种表面蛋白。

VIMCCA的整合结果成功地区分了Inte MonoCD4 TEM RA+等在Seurat v4, totalVICiteFuse中被混合的细微亚群。

在聚类准确性评估中,VIMCCAARI得分(0.42)最高,优于CiteFuse(0.39)、Seurat v4(0.36)和totalVI(0.35)(图B)。VIMCCA再次发现了四个新的细胞亚群,包括IgG+ CD14 MonoCD3+ B细胞等,并通过marker基因(如IgG2a, CD45RA, CD3E)的表达得到了验证(图D-G)。VIMCCA的运行速度与Seurat v4totalVI相当,远快于CiteFuse等方法,展现了其处理大规模数据的能力(图C)。

3.3 实验三:整合CITE-seq数据 (RNA + 蛋白)

作者在一个包含约3万个人类骨髓细胞的CITE-seq数据集上进行了测试。

VIMCCA再次展现了其强大的细胞类型区分能力,成功分开了CD8 Memory 1MAIT细胞等在其他方法中被混合的亚群。

VIMCCA识别出了一个新的、罕见的CD14 Mono 2亚群(图C)。在聚类准确性(ARI)上,VIMCCA的性能与Seurat v4相当,并优于totalVI(图D)。作者通过改变潜变量维度,证明了VIMCCA的聚类结果对其超参数不敏感,具有良好的鲁棒性(图E)。

3.4 实验四:赋能发育轨迹推断

最后,作者在一个包含三个不同发育时间点(E12.5, E16.5, 成年)的小鼠前脑Paired-seq数据集上,测试了VIMCCA在轨迹推断任务中的表现。

作者使用slingshot工具,在不同方法生成的低维嵌入上推断伪时间。结果显示,基于VIMCCA嵌入推断出的伪时间,与细胞真实的采样时间之间的肯德尔相关性(Kendall correlation)最高(0.62),与表现最好的DCAscVI相当,显著优于scVAE, PCADiffusion map(图A)。UMAP可视化也直观地显示,VIMCCA是唯一能够清晰地将三个发育阶段的细胞分离开来的方法(图B)。

这些结果表明,VIMCCA学习到的联合嵌入能够很好地保留细胞在发育过程中的连续变化结构,从而促进了准确的轨迹推断。