通过非线性典型相关性分析进行有效可扩展的单细胞对齐.

0. TL; DR

VIPCCA是一个基于非线性典型相关性分析(non-linear canonical correlation analysis)的计算框架,旨在实现高效且可扩展的单细胞数据对齐。VIPCCA的核心是一个概率性非线性CCA模型,通过一个共享的非线性函数和一个数据集特异性的偏置项,将所有数据集的细胞都投影到一个共同的低维潜在空间,从而在去除批次效应的同时,捕捉复杂的生物学结构。

与许多只返回低维嵌入的方法不同,VIPCCA是一个数据生成模型。它能够生成经过批次校正的、标准化的基因表达数据,这些数据可以直接用于下游的差异表达分析(differential expression analysis)等任务。

1. 背景介绍

单细胞测序技术的发展,使我们积累了海量的、来自不同样本、不同平台、甚至不同数据类型的单细胞数据集。为了从这些异构的数据中提取统一的生物学规律,数据对齐(data alignment)成为了至关重要的一步。一个好的对齐方法,需要能够在去除批次效应(batch effects)和技术噪声的同时,保留真实的生物学变异。

尽管已经涌现出许多对齐方法,但它们大多在面对当今动辄数十万甚至上百万细胞的大规模数据集时,显得力不从心。这些方法的局限性主要体现在:

因此,领域内迫切需要一种既准确又高效,并且通用性强的对齐方法。VIPCCA正是为应对这些挑战而设计的。

2. VIPCCA 方法

VIPCCA的核心是一个非线性的概率典型相关性分析(non-linear Probabilistic Canonical Correlation Analysis)模型,它通过深度神经网络变分推断来实现高效求解。

假设有k个不同的单细胞数据集 ${X^{(m)}}_{m=1}^k$,它们共享p个特征(如基因)。作者假设所有细胞,无论来自哪个数据集,其高维的特征表达 $X_i^{(m)}$ 都是由一个共同的、低维的潜变量(latent factors) $Z_i^{(m)}$ 生成的。

VIPCCA通过一个非线性函数 $f(\cdot)$ 和一个数据集特异性的偏置项 $b^{(m)}$ 来描述这种生成关系:

\[X_i^{(m)} = f(Z_i^{(m)}, b^{(m)} | \theta) + E_i^{(m)}\]

其中$f(\cdot)$ 是一个由深度神经网络实现的非线性函数,其参数 $\theta$ 在所有数据集中是共享的。它负责将低维的潜变量映射回高维的特征空间。$b^{(m)}$ 是一个数据集特异性的向量,它代表了每个数据集独有的技术偏差或批次效应。通过将 $b^{(m)}$ 作为$f(\cdot)$的输入,模型能够为不同数据集学习不同的生成模式。$E_i^{(m)}$ 是服从高斯分布的残差项。潜变量 $Z_i^{(m)}$ 被假设服从标准多维正态分布先验,即 $Z_i^{(m)} \sim \mathcal{N}(0, I)$。这个假设确保了所有数据集的潜变量都位于同一个共享的低维空间中。

这个模型可以看作是经典PCCA的推广。当 $f(\cdot)$ 是线性函数且没有 $b^{(m)}$ 时,模型就退化为PCCA。通过引入非线性和数据集特异性偏置,VIPCCA能够更灵活地捕捉复杂的数据结构和批次效应。

由于非线性函数 $f(\cdot)$ 的存在,上述模型的后验分布 $p(Z_i^{(m)} | X_i^{(m)}, b^{(m)})$ 难以直接计算。因此,作者采用了变分推断(variational inference)进行近似求解。作者引入一个相对简单的变分分布 $q(Z_i^{(m)})$(同样由一个编码器神经网络实现)来近似复杂的真实后验。模型的训练目标是最大化证据下界。ELBO可以被分解为两部分:

\[L(\theta, \phi; X_i^{(m)}, b^{(m)}) = -D_{KL}(q_\phi(Z_i^{(m)}|X_i^{(m)}) \| p(Z_i^{(m)})) + k \mathbb{E}_{q_\phi(Z_i^{(m)}|X_i^{(m)})}[\log p_\theta(X_i^{(m)}|Z_i^{(m)})]\]

第一项是KL散度,作为正则项,促使学习到的后验分布接近先验分布。第二项是期望重构误差,衡量了从潜变量重构出原始数据的准确性。作者采用mini-batch随机梯度下降来优化ELBO,这使得VIPCCA能够高效地处理包含数百万细胞的大规模数据集。

VIPCCA的一个关键优势是其数据生成能力。训练完成后,作者可以:使用训练好的编码器,将所有细胞投影到共享的低维空间中,得到它们的潜在表征 $\hat{Z}_i^{(m)}$,用于聚类和可视化。将潜在表征 $\hat{Z}_i^{(m)}$ 与一个共同的批次向量(如 $b^{(1)}$)一起输入到训练好的解码器 $f(\cdot | \hat{\theta})$ 中,可以生成经过批次校正的、标准化的基因表达数据 $\hat{X}_i^{(m)}$。这些数据可以直接用于下游的差异表达分析等任务。

\[\hat{X}_i^{(m)} = f(\hat{Z}_i^{(m)}, b^{(1)} | \hat{\theta})\]

3. 实验分析

作者通过五个覆盖了不同对齐任务的真实数据应用,系统性地评估了VIPCCA的性能,并与DESC, Harmony, LIGER, MNN, scAlign, Scanorama, scVISeurat V3等七种SOTA方法进行了比较。

3.1 实验一:跨样本、跨平台整合

作者首先在一个包含8个scRNA-seq数据集、横跨27个样本、5种技术平台的人类胰腺导管数据集上进行了测试。

UMAP可视化显示,VIPCCA, LIGERSeurat批次混合方面表现最好;而VIPCCA, HarmonySeurat则在细胞类型区分上表现最佳。

定量评估证实了这一点。VIPCCA混合度(mixing metric)上与LIGERSeurat并列第一;在批次效应去除(kBET)上与LIGER并列第一;而在聚类准确性(ARI)上,显著优于所有其他方法。在差异表达分析评估中,VIPCCA恢复的数据在去除批次间差异的同时,最好地保留了真实的生物学差异。其在同类细胞跨批次比较中得到的假阳性DE基因最少,而在不同细胞类型比较中得到的Jaccard指数最高。

3.2 实验二:整合部分重叠的数据集

作者在一个包含纯293T细胞、纯Jurkat细胞和两者混合的三个scRNA-seq数据集上,测试了算法处理部分重叠细胞类型数据集的能力。

VIPCCAHarmony成功地将三个数据集完美混合,并清晰地分开了两种细胞类型。其他方法或混合不佳,或无法区分细胞类型。

定量评估显示,VIPCCAHarmony在混合度和批次校正上并列第一。在聚类准确性(ARI)上,VIPCCA(0.92)仅次于scVI(0.97),但scVI的批次混合效果远差于VIPCCADE分析再次证实,VIPCCA在去除批次效应和保留生物学信号之间取得了最佳平衡。

3.3 实验三:跨模态整合 (scRNA-seq + scATAC-seq)

作者挑战了将scRNA-seqscATAC-seq两种不同模态的数据对齐的任务,并与Seurat的参考映射策略进行了比较。

UMAP可视化显示,VIPCCA对两种模态的混合效果优于Seurat

VIPCCA推断的scATAC-seq细胞类型与Seurat的结果高度一致,但存在一些重要差异。

作者发现,被VIPCCA标记为未知的细胞,其数据质量(如重复/嵌合读数比例)显著低于被Seurat标记为未知的细胞。这表明VIPCCA能够更准确地识别并排除低质量的细胞。

3.4 实验四:整合百万级别的大规模数据集

作者在一个包含超过一百万个细胞的、来自Drop-seqSPLiT-seq两个平台的小鼠大脑scRNA-seq数据集上,测试了VIPCCA的可扩展性。

只有五个方法能够处理如此大规模的数据。VIPCCAHarmony的批次混合和细胞类型/区域分离效果最好。

定量评估显示,VIPCCA在混合度和聚类准确性(ARI)上均排名第一。在计算效率上,VIPCCAHarmony也远快于其他三个深度学习方法。

这个实验有力地证明了VIPCCA在处理图谱级别大规模数据集时的卓越性能和效率。

3.5 实验五:发育轨迹推断

最后,作者在一个包含多个发育时间点的人类PGCs(原始生殖细胞)scRNA-seq数据集上,测试了VIPCCA的整合结果是否有助于下游的轨迹推断。

VIPCCA的整合结果在UMAP空间中清晰地展现了从早期到晚期PGCs的线性发育轨迹,这与已知的生物学过程一致。

VIPCCA在批次混合和批次校正指标上,均取得了最佳性能。

这表明,VIPCCA学习到的潜在空间能够准确地保留细胞在发育过程中的连续变化,从而为准确的轨迹推断提供了坚实的基础。