通过映射异质数据集到公共细胞嵌入空间进行在线单细胞数据整合.

0. TL; DR

SCALEX通过一个通用编码器将细胞投影到一个批次不变量的、共同的细胞嵌入空间中,以一种真正的在线(online)方式(即无需重新训练模型)整合单细胞数据。这极大地节省了计算资源,并保留了已有分析结果的稳定性。

在多种模态(如scRNA-seq, scATAC-seq)的基准测试中,SCALEX的性能显著优于online iNMF以及其他SOTA的非在线整合方法。作者展示了SCALEX在构建可连续扩展(continuously expandable)的单细胞图谱方面的强大能力。

1. 背景介绍

随着单细胞技术的普及,我们正以前所未有的速度积累着海量的数据。如何将这些来自不同供体、不同条件、不同技术平台的数据有效地整合在一起,成为了单细胞分析领域的核心挑战。

现有的数据整合方法,如Seurat, MNN, Harmony等,虽然在各自的领域取得了成功,但它们大多面临着三个日益严峻的局限性:

  1. 过度校正问题: 许多基于局部细胞相似性搜索的方法(如MNN),在处理部分重叠的数据集(即不同批次间细胞类型不完全一致)时,很容易错误地将本不相同的细胞类型混合在一起,造成过度校正。
  2. 可扩展性瓶颈: 随着数据集规模达到百万级别,这些方法的计算资源消耗(时间和内存)急剧增加,使其难以胜任图谱级别(Atlas-level)的整合任务。
  3. 离线整合模式 这是最根本的限制。几乎所有现有方法都采用离线(offline)整合模式,即每次有新数据加入时,都必须将新旧数据全部放在一起,从头开始运行整个整合流程。这不仅耗费大量的计算资源,而且每次都会改变原有的整合结果,使得基于旧结果的科学发现难以稳定和延续。

因此,领域内迫切需要一种能够实现在线数据整合的方法。在线整合意味着,当新数据到来时,模型可以直接将其整合进已有的分析框架中,而无需重新训练或重新计算。

2. SCALEX 方法

SCALEX的核心思想是设计一个通用的、批次不变量(batch-invariant)的编码器,它能够将任何来源的单细胞数据,都投影到一个共享的、消除了批次效应的嵌入空间中。

SCALEX的基础是一个变分自编码器,但其在结构上进行了三处关键的创新设计,以实现在线整合的能力。

  1. 非对称的编码器-解码器设计:
    • 批次无关的编码器(Batch-free Encoder): SCALEX的编码器在训练时,完全不知道输入细胞的批次信息。它的唯一任务,是从混合了所有批次的数据中,学习并提取出与生物学状态相关的、批次不变量的特征,并将其编码为潜变量 $z$。
    • 批次特异性的解码器(Batch-specific Decoder): 与之相反,解码器在重构原始数据时,会同时接收潜变量 $z$ 和该细胞对应的批次标签 $b$ 作为输入。通过这种非对称的设计,模型被迫将与批次效应相关的信息,全部交由解码器来处理,从而使得编码器专注于学习通用的生物学特征。这正是编码器能够泛化到新批次数据的关键。
  2. 域特异性批量归一化 (Domain-Specific Batch Normalization, DSBN): 为了让解码器能够有效地学习和注入批次特异性信息,作者在解码器中引入了DSBN层。DSBN可以看作是多个并行的批量归一化(Batch Normalization, BN)层。对于来自不同批次的数据,它会使用一组独立的、专属于该批次的仿射变换参数($\gamma_d$ 和 $\beta_d$)来进行归一化。通过这种方式,解码器能够为每个批次学习到其独特的风格或噪声模式,并在数据重构时将其精确地添加回去。
\[y_d = \gamma_d \hat{x}_d + \beta_d \equiv \text{DSBN}_{\gamma_d, \beta_d}(x_d, d)\]
  1. 混合批次的小批量策略 (Mini-batching Strategy): 在训练时,SCALEX的每个mini-batch都是从所有批次的数据中混合采样得到的,而不是像传统方法那样按批次迭代。这样做的好处是,每个mini-batch都能更好地近似于整体数据的分布,从而帮助编码器学习到一个更全局、更鲁棒的表征。同时,在编码器中,每个mini-batch都会经过一个标准的BN层,以校正采样带来的偏差,使其与整体输入分布对齐。

SCALEX的训练目标是最大化标准的VAE 证据下界,它由重构损失和KL散度两部分组成。

\[L_{ELBO}(x) = \mathbb{E}_{q(z|x)}[\log p(x|z)] - 0.5 \cdot D_{KL}(q(z|x) \| p(z))\]

一旦模型训练完成,其编码器就成为了一个通用的投影函数。当有新的数据集到来时,作者无需重新训练模型,只需将新数据直接输入到这个训练好的编码器中,即可将其细胞投影到同一个、已经构建好的批次不变量嵌入空间中,从而实现真正的在线整合。

3. 实验分析

作者在一系列覆盖了不同物种、不同组织、不同模态的真实数据集上,对SCALEX的性能进行了全面的基准测试,并与online iNMF, Seurat v3, Harmony, LIGER等八种SOTA方法进行了比较。

3.1 实验一:基础数据整合性能

3.2 实验二:处理部分重叠数据集与避免过度校正

作者在一个肝脏数据集(包含批次特异性的肝细胞亚型)和一个人为构建的、重叠程度递减的胰腺数据集上进行了测试。

这证明了SCALEX的全局投影策略,相比于基于局部相似性搜索的方法,能够更有效地避免在处理复杂、部分重叠数据集时的过度校正问题。

3.4 实验三:在线投影与可扩展图谱构建

作者展示了如何利用SCALEX构建一个可连续扩展的小鼠细胞图谱。首先整合多个来源的数据构建初始图谱,然后不断地将新的组织、新的年龄段的数据在线投影进来,从而使图谱不断成长和完善。

3.5 实验五:构建COVID-19 PBMC图谱并与SC4联盟数据整合

作者利用SCALEX整合了来自9个不同研究的COVID-19 PBMC数据,构建了一个包含超过86万细胞的COVID-19 PBMC图谱。

这个案例完美地展示了SCALEX在线整合能力,如何将孤立的研究连接起来,构建一个动态的、不断增长的知识库,并从中催生新的生物学发现。