通过映射异质数据集到公共细胞嵌入空间进行在线单细胞数据整合.
0. TL; DR
SCALEX通过一个通用编码器将细胞投影到一个批次不变量的、共同的细胞嵌入空间中,以一种真正的在线(online)方式(即无需重新训练模型)整合单细胞数据。这极大地节省了计算资源,并保留了已有分析结果的稳定性。
在多种模态(如scRNA-seq, scATAC-seq)的基准测试中,SCALEX的性能显著优于online iNMF以及其他SOTA的非在线整合方法。作者展示了SCALEX在构建可连续扩展(continuously expandable)的单细胞图谱方面的强大能力。
1. 背景介绍
随着单细胞技术的普及,我们正以前所未有的速度积累着海量的数据。如何将这些来自不同供体、不同条件、不同技术平台的数据有效地整合在一起,成为了单细胞分析领域的核心挑战。
现有的数据整合方法,如Seurat, MNN, Harmony等,虽然在各自的领域取得了成功,但它们大多面临着三个日益严峻的局限性:
- 过度校正问题: 许多基于局部细胞相似性搜索的方法(如MNN),在处理部分重叠的数据集(即不同批次间细胞类型不完全一致)时,很容易错误地将本不相同的细胞类型混合在一起,造成过度校正。
- 可扩展性瓶颈: 随着数据集规模达到百万级别,这些方法的计算资源消耗(时间和内存)急剧增加,使其难以胜任图谱级别(Atlas-level)的整合任务。
- 离线整合模式 这是最根本的限制。几乎所有现有方法都采用离线(offline)整合模式,即每次有新数据加入时,都必须将新旧数据全部放在一起,从头开始运行整个整合流程。这不仅耗费大量的计算资源,而且每次都会改变原有的整合结果,使得基于旧结果的科学发现难以稳定和延续。
因此,领域内迫切需要一种能够实现在线数据整合的方法。在线整合意味着,当新数据到来时,模型可以直接将其整合进已有的分析框架中,而无需重新训练或重新计算。
2. SCALEX 方法
SCALEX的核心思想是设计一个通用的、批次不变量(batch-invariant)的编码器,它能够将任何来源的单细胞数据,都投影到一个共享的、消除了批次效应的嵌入空间中。

SCALEX的基础是一个变分自编码器,但其在结构上进行了三处关键的创新设计,以实现在线整合的能力。
- 非对称的编码器-解码器设计:
- 批次无关的编码器(Batch-free Encoder): SCALEX的编码器在训练时,完全不知道输入细胞的批次信息。它的唯一任务,是从混合了所有批次的数据中,学习并提取出与生物学状态相关的、批次不变量的特征,并将其编码为潜变量 $z$。
- 批次特异性的解码器(Batch-specific Decoder): 与之相反,解码器在重构原始数据时,会同时接收潜变量 $z$ 和该细胞对应的批次标签 $b$ 作为输入。通过这种非对称的设计,模型被迫将与批次效应相关的信息,全部交由解码器来处理,从而使得编码器专注于学习通用的生物学特征。这正是编码器能够泛化到新批次数据的关键。
- 域特异性批量归一化 (Domain-Specific Batch Normalization, DSBN): 为了让解码器能够有效地学习和注入批次特异性信息,作者在解码器中引入了DSBN层。DSBN可以看作是多个并行的批量归一化(Batch Normalization, BN)层。对于来自不同批次的数据,它会使用一组独立的、专属于该批次的仿射变换参数($\gamma_d$ 和 $\beta_d$)来进行归一化。通过这种方式,解码器能够为每个批次学习到其独特的风格或噪声模式,并在数据重构时将其精确地添加回去。
- 混合批次的小批量策略 (Mini-batching Strategy): 在训练时,SCALEX的每个mini-batch都是从所有批次的数据中混合采样得到的,而不是像传统方法那样按批次迭代。这样做的好处是,每个mini-batch都能更好地近似于整体数据的分布,从而帮助编码器学习到一个更全局、更鲁棒的表征。同时,在编码器中,每个mini-batch都会经过一个标准的BN层,以校正采样带来的偏差,使其与整体输入分布对齐。
SCALEX的训练目标是最大化标准的VAE 证据下界,它由重构损失和KL散度两部分组成。
\[L_{ELBO}(x) = \mathbb{E}_{q(z|x)}[\log p(x|z)] - 0.5 \cdot D_{KL}(q(z|x) \| p(z))\]一旦模型训练完成,其编码器就成为了一个通用的投影函数。当有新的数据集到来时,作者无需重新训练模型,只需将新数据直接输入到这个训练好的编码器中,即可将其细胞投影到同一个、已经构建好的批次不变量嵌入空间中,从而实现真正的在线整合。
3. 实验分析
作者在一系列覆盖了不同物种、不同组织、不同模态的真实数据集上,对SCALEX的性能进行了全面的基准测试,并与online iNMF, Seurat v3, Harmony, LIGER等八种SOTA方法进行了比较。
3.1 实验一:基础数据整合性能
- 图b (UMAP可视化): 在PBMC数据集上,原始数据存在明显的批次效应。SCALEX, Seurat v3, Harmony等方法都取得了良好的整合效果,而online iNMF, LIGER等方法则出现了明显的细胞类型混淆或对齐不佳的问题。
- 图c (定量评估): 在多个数据集的综合评估中,SCALEX在聚类准确性(ARI和NMI)上全面超越了所有其他方法。在批次混合方面,其性能与Seurat v3和Harmony并列第一。这证明了SCALEX在有效去除批次效应的同时,能够最大程度地保留细胞类型的生物学差异。
- 图e (可扩展性): 作者在一个包含超过400万细胞的人类胎儿图谱数据集上测试了计算效率。结果显示,SCALEX和online iNMF的运行时间和内存消耗随数据规模线性增长,展现了卓越的可扩展性。相比之下,Seurat v3, Harmony等方法则在数据量超过100万时就因资源消耗过大而无法运行。
- 图d (图谱整合): SCALEX成功地整合了这个百万级别的图谱数据,得到了清晰的细胞类型划分和良好的批次混合。
- 图f, g (多模态整合):** SCALEX同样能有效地整合不同模态的数据。作者展示了其在整合两个小鼠大脑scATAC-seq数据集,以及一个跨模态的PBMC scRNA-seq/scATAC-seq数据集上的成功案例。

3.2 实验二:处理部分重叠数据集与避免过度校正
作者在一个肝脏数据集(包含批次特异性的肝细胞亚型)和一个人为构建的、重叠程度递减的胰腺数据集上进行了测试。
- 图a, c, d (避免过度校正): SCALEX和scVI成功地在对齐共同细胞类型的同时,保持了那些批次特异性亚型的分离。相比之下,Seurat v3, Harmony, online iNMF等方法则出现了严重的过度校正问题,错误地将本不相同的肝细胞亚型混合在了一起。
- 图b (过度校正分数): 作者定义了一个过度校正分数来量化这一问题。结果显示,在所有测试数据集上,SCALEX的过度校正分数都是最低的,而online iNMF则最高。

这证明了SCALEX的全局投影策略,相比于基于局部相似性搜索的方法,能够更有效地避免在处理复杂、部分重叠数据集时的过度校正问题。
3.4 实验三:在线投影与可扩展图谱构建
- 图a, b (在线投影): 作者首先用一个胰腺数据集构建了一个胰腺细胞空间。然后,使用训练好的SCALEX编码器,将三个新的胰腺数据集直接投影到这个空间中。结果显示,新数据集的细胞被准确地对齐到了参考空间中对应的细胞类型位置。
- 图c (标签迁移准确率): 基于投影结果进行标签迁移,SCALEX的准确率(ARI, NMI, F1-score)显著高于同样支持在线学习的online iNMF和scVI/scArches。
- 图d, e (丰富细胞空间): SCALEX的在线投影能力,不仅能对齐共同类型,还能用新数据来丰富已有的细胞空间。例如,将黑色素瘤数据投影到PBMC空间后,肿瘤细胞和浆细胞被正确地放置在了与已有细胞类型邻近的新位置。
- 图f, g (注释未知细胞): 甚至可以反过来,利用新数据来注释参考图谱中的未知细胞群。作者通过将一个支气管上皮细胞数据集投影到胰腺空间,成功地将胰腺数据中一个未知的细胞群,注释为SLC16A7+上皮细胞。

作者展示了如何利用SCALEX构建一个可连续扩展的小鼠细胞图谱。首先整合多个来源的数据构建初始图谱,然后不断地将新的组织、新的年龄段的数据在线投影进来,从而使图谱不断成长和完善。

3.5 实验五:构建COVID-19 PBMC图谱并与SC4联盟数据整合
作者利用SCALEX整合了来自9个不同研究的COVID-19 PBMC数据,构建了一个包含超过86万细胞的COVID-19 PBMC图谱。
- 图a-g (图谱分析): 这个整合后的图谱,揭示了多个与COVID-19疾病严重程度相关的免疫细胞亚群,如CD14-ISG15-Mono等。这些发现在小规模的单个研究中是难以察觉的。
- 图h, i (与SC4图谱在线整合): 更令人兴奋的是,作者成功地将一个更大规模的、来自中国SC4联盟的一百多万细胞的图谱,在线投影到了作者自己构建的COVID-19图谱空间中。
- 图h, k (新发现): 两个图谱的成功整合,不仅相互验证了彼此的发现,还通过提升分辨率,使得作者能够在一个原先被混为一谈的巨核细胞群中,发现两个新的、功能上不同的亚群(TUBA8-Mega和IGKC-Mega)。

这个案例完美地展示了SCALEX的在线整合能力,如何将孤立的研究连接起来,构建一个动态的、不断增长的知识库,并从中催生新的生物学发现。