0. TL; DR

SCALEX通过一个通用编码器将细胞投影到一个批次不变量的、共同的细胞嵌入空间中，以一种真正的在线（online）方式（即无需重新训练模型）整合单细胞数据。这极大地节省了计算资源，并保留了已有分析结果的稳定性。

在多种模态（如scRNA-seq, scATAC-seq）的基准测试中，SCALEX的性能显著优于online iNMF以及其他SOTA的非在线整合方法。作者展示了SCALEX在构建可连续扩展（continuously expandable）的单细胞图谱方面的强大能力。

1. 背景介绍

随着单细胞技术的普及，我们正以前所未有的速度积累着海量的数据。如何将这些来自不同供体、不同条件、不同技术平台的数据有效地整合在一起，成为了单细胞分析领域的核心挑战。

现有的数据整合方法，如Seurat, MNN, Harmony等，虽然在各自的领域取得了成功，但它们大多面临着三个日益严峻的局限性：

过度校正问题：许多基于局部细胞相似性搜索的方法（如MNN），在处理部分重叠的数据集（即不同批次间细胞类型不完全一致）时，很容易错误地将本不相同的细胞类型混合在一起，造成过度校正。
可扩展性瓶颈：随着数据集规模达到百万级别，这些方法的计算资源消耗（时间和内存）急剧增加，使其难以胜任图谱级别（Atlas-level）的整合任务。
离线整合模式这是最根本的限制。几乎所有现有方法都采用离线（offline）整合模式，即每次有新数据加入时，都必须将新旧数据全部放在一起，从头开始运行整个整合流程。这不仅耗费大量的计算资源，而且每次都会改变原有的整合结果，使得基于旧结果的科学发现难以稳定和延续。

因此，领域内迫切需要一种能够实现在线数据整合的方法。在线整合意味着，当新数据到来时，模型可以直接将其整合进已有的分析框架中，而无需重新训练或重新计算。

2. SCALEX 方法

SCALEX的核心思想是设计一个通用的、批次不变量（batch-invariant）的编码器，它能够将任何来源的单细胞数据，都投影到一个共享的、消除了批次效应的嵌入空间中。

SCALEX的基础是一个变分自编码器，但其在结构上进行了三处关键的创新设计，以实现在线整合的能力。

非对称的编码器-解码器设计：
- 批次无关的编码器（Batch-free Encoder）： SCALEX的编码器在训练时，完全不知道输入细胞的批次信息。它的唯一任务，是从混合了所有批次的数据中，学习并提取出与生物学状态相关的、批次不变量的特征，并将其编码为潜变量 $z$。
- 批次特异性的解码器（Batch-specific Decoder）： 与之相反，解码器在重构原始数据时，会同时接收潜变量 $z$ 和该细胞对应的批次标签 $b$ 作为输入。通过这种非对称的设计，模型被迫将与批次效应相关的信息，全部交由解码器来处理，从而使得编码器专注于学习通用的生物学特征。这正是编码器能够泛化到新批次数据的关键。
域特异性批量归一化 (Domain-Specific Batch Normalization, DSBN): 为了让解码器能够有效地学习和注入批次特异性信息，作者在解码器中引入了DSBN层。DSBN可以看作是多个并行的批量归一化（Batch Normalization, BN）层。对于来自不同批次的数据，它会使用一组独立的、专属于该批次的仿射变换参数（$\gamma_d$ 和 $\beta_d$）来进行归一化。通过这种方式，解码器能够为每个批次学习到其独特的风格或噪声模式，并在数据重构时将其精确地添加回去。

\[y_d = \gamma_d \hat{x}_d + \beta_d \equiv \text{DSBN}_{\gamma_d, \beta_d}(x_d, d)\]

混合批次的小批量策略 (Mini-batching Strategy): 在训练时，SCALEX的每个mini-batch都是从所有批次的数据中混合采样得到的，而不是像传统方法那样按批次迭代。这样做的好处是，每个mini-batch都能更好地近似于整体数据的分布，从而帮助编码器学习到一个更全局、更鲁棒的表征。同时，在编码器中，每个mini-batch都会经过一个标准的BN层，以校正采样带来的偏差，使其与整体输入分布对齐。

SCALEX的训练目标是最大化标准的VAE 证据下界，它由重构损失和KL散度两部分组成。

\[L_{ELBO}(x) = \mathbb{E}_{q(z|x)}[\log p(x|z)] - 0.5 \cdot D_{KL}(q(z|x) \| p(z))\]

一旦模型训练完成，其编码器就成为了一个通用的投影函数。当有新的数据集到来时，作者无需重新训练模型，只需将新数据直接输入到这个训练好的编码器中，即可将其细胞投影到同一个、已经构建好的批次不变量嵌入空间中，从而实现真正的在线整合。

3. 实验分析

作者在一系列覆盖了不同物种、不同组织、不同模态的真实数据集上，对SCALEX的性能进行了全面的基准测试，并与online iNMF, Seurat v3, Harmony, LIGER等八种SOTA方法进行了比较。

3.1 实验一：基础数据整合性能

图b (UMAP可视化): 在PBMC数据集上，原始数据存在明显的批次效应。SCALEX, Seurat v3, Harmony等方法都取得了良好的整合效果，而online iNMF, LIGER等方法则出现了明显的细胞类型混淆或对齐不佳的问题。
图c (定量评估): 在多个数据集的综合评估中，SCALEX在聚类准确性（ARI和NMI）上全面超越了所有其他方法。在批次混合方面，其性能与Seurat v3和Harmony并列第一。这证明了SCALEX在有效去除批次效应的同时，能够最大程度地保留细胞类型的生物学差异。
图e (可扩展性): 作者在一个包含超过400万细胞的人类胎儿图谱数据集上测试了计算效率。结果显示，SCALEX和online iNMF的运行时间和内存消耗随数据规模线性增长，展现了卓越的可扩展性。相比之下，Seurat v3, Harmony等方法则在数据量超过100万时就因资源消耗过大而无法运行。
图d (图谱整合): SCALEX成功地整合了这个百万级别的图谱数据，得到了清晰的细胞类型划分和良好的批次混合。
图f, g (多模态整合):** SCALEX同样能有效地整合不同模态的数据。作者展示了其在整合两个小鼠大脑scATAC-seq数据集，以及一个跨模态的PBMC scRNA-seq/scATAC-seq数据集上的成功案例。

3.2 实验二：处理部分重叠数据集与避免过度校正

作者在一个肝脏数据集（包含批次特异性的肝细胞亚型）和一个人为构建的、重叠程度递减的胰腺数据集上进行了测试。

图a, c, d (避免过度校正): SCALEX和scVI成功地在对齐共同细胞类型的同时，保持了那些批次特异性亚型的分离。相比之下，Seurat v3, Harmony, online iNMF等方法则出现了严重的过度校正问题，错误地将本不相同的肝细胞亚型混合在了一起。
图b (过度校正分数): 作者定义了一个过度校正分数来量化这一问题。结果显示，在所有测试数据集上，SCALEX的过度校正分数都是最低的，而online iNMF则最高。

这证明了SCALEX的全局投影策略，相比于基于局部相似性搜索的方法，能够更有效地避免在处理复杂、部分重叠数据集时的过度校正问题。

3.4 实验三：在线投影与可扩展图谱构建

图a, b (在线投影): 作者首先用一个胰腺数据集构建了一个胰腺细胞空间。然后，使用训练好的SCALEX编码器，将三个新的胰腺数据集直接投影到这个空间中。结果显示，新数据集的细胞被准确地对齐到了参考空间中对应的细胞类型位置。
图c (标签迁移准确率): 基于投影结果进行标签迁移，SCALEX的准确率（ARI, NMI, F1-score）显著高于同样支持在线学习的online iNMF和scVI/scArches。
图d, e (丰富细胞空间): SCALEX的在线投影能力，不仅能对齐共同类型，还能用新数据来丰富已有的细胞空间。例如，将黑色素瘤数据投影到PBMC空间后，肿瘤细胞和浆细胞被正确地放置在了与已有细胞类型邻近的新位置。
图f, g (注释未知细胞): 甚至可以反过来，利用新数据来注释参考图谱中的未知细胞群。作者通过将一个支气管上皮细胞数据集投影到胰腺空间，成功地将胰腺数据中一个未知的细胞群，注释为SLC16A7+上皮细胞。

作者展示了如何利用SCALEX构建一个可连续扩展的小鼠细胞图谱。首先整合多个来源的数据构建初始图谱，然后不断地将新的组织、新的年龄段的数据在线投影进来，从而使图谱不断成长和完善。

3.5 实验五：构建COVID-19 PBMC图谱并与SC4联盟数据整合

作者利用SCALEX整合了来自9个不同研究的COVID-19 PBMC数据，构建了一个包含超过86万细胞的COVID-19 PBMC图谱。

图a-g (图谱分析): 这个整合后的图谱，揭示了多个与COVID-19疾病严重程度相关的免疫细胞亚群，如CD14-ISG15-Mono等。这些发现在小规模的单个研究中是难以察觉的。
图h, i (与SC4图谱在线整合): 更令人兴奋的是，作者成功地将一个更大规模的、来自中国SC4联盟的一百多万细胞的图谱，在线投影到了作者自己构建的COVID-19图谱空间中。
图h, k (新发现): 两个图谱的成功整合，不仅相互验证了彼此的发现，还通过提升分辨率，使得作者能够在一个原先被混为一谈的巨核细胞群中，发现两个新的、功能上不同的亚群（TUBA8-Mega和IGKC-Mega）。

这个案例完美地展示了SCALEX的在线整合能力，如何将孤立的研究连接起来，构建一个动态的、不断增长的知识库，并从中催生新的生物学发现。