scBridge能够整合单细胞RNA测序和ATAC测序数据中的细胞异质性.
0. TL; DR
scBridge 是一种以异构方式整合细胞的多组学数据整合方法,采用了一种迭代策略:
- 识别可靠的scATAC-seq细胞: 首先识别出那些与scRNA-seq数据组学差异较小的、更可靠的scATAC-seq细胞。
- 整合可靠细胞以缩小差距:然后将这些可靠的scATAC-seq细胞与scRNA-seq数据进行整合,从而缩小整体的组学鸿沟。
- 迭代进行:这一过程的成功反过来又有助于整合剩余的、差异更大的细胞。
通过这种从易到难的渐进式整合,scBridge能够实现更精准的数据对齐。在七个多组学数据集上的广泛实验表明,与六个代表性的基线方法相比,scBridge展现出了卓越的性能。
1. 背景介绍
整合来自不同组学(omics)层面的单细胞数据,如scRNA-seq和scATAC-seq,为我们全面理解分子调控网络、促进精准医疗带来了前所未有的机遇。然而,要将这两种异构的数据有效地整合在一起,并非易事。
scRNA-seq和scATAC-seq数据之间的差异是巨大的,不仅体现在数据分布上,还体现在稀疏性水平上。现有的整合方法,无论是基于流形对齐、互近邻校正,还是对抗训练,其核心目标都可以概括为:在最大化保留细胞类型差异的同时,最小化消除组学差异。
然而,一个长期被忽视的关键因素是细胞异质性(cell heterogeneity)。即使是来自同一个细胞类型、同一个组学的细胞,它们在分子特征上也存在着不可忽略的差异。这种内在的异质性,使得细胞类型差异和组学差异的界限变得模糊,从而给数据整合带来了巨大的挑战:
- 过度整合 (Over-integration): 如果模型错误地将真实的细胞类型差异当作组学差异并加以消除,那么不同类型的细胞就会被错误地混合在一起。
- 整合不足 (Under-integration): 反之,如果模型将组学差异当作细胞类型差异而未能充分消除,那么来自不同组学的同类型细胞将无法很好地混合。
作者观察到,不同scATAC-seq细胞与scRNA-seq细胞之间的组学差异并非是均一的,而是异构的。一些scATAC-seq细胞的染色质可及性模式,与scRNA-seq的基因表达模式具有更高的正相关性。这些细胞的组学差异更小,因此更容易被整合。
基于这一发现,作者设计了scBridge。它采用了一种从易到难的异构迁移学习(heterogeneous transfer learning)策略,旨在利用那些容易整合的细胞作为桥梁,逐步攻克整个整合难题。
2. scBridge 方法
scBridge是一个半监督方法,它通过一个迭代的、从易到难的异构迁移学习范式,来整合带注释的scRNA-seq数据和无标签的scATAC-seq数据。
scBridge的基础架构是一个包含一个共享的深度编码器 $f(\cdot)$ 和一个分类器 $g(\cdot)$ 的神经网络。其训练过程通过一种迭代的方式,逐步将scATAC-seq细胞整合进来。

scBridge的整合过程是一个预热-评估-对齐-合并-再训练的迭代循环。
第一步:网络预热
首先使用带标签的scRNA-seq数据 ${X_s, Y_s}$ 对编码器 $f(\cdot)$ 和分类器 $g(\cdot)$ 进行预热训练。训练的目标是最小化一个加权的交叉熵损失 $L_{WCE}$,以学习区分不同细胞类型的能力。
\[L_{WCE} = \frac{1}{N} \sum_{i=1}^N -w_i^s \log \frac{\exp(p_i^s[y_i^s])}{\sum_{k=1}^K \exp(p_i^s[k])}\]这里的权重 $w_i^s$ 用于缓解细胞类型不均衡的问题。
第二步:可靠性建模
预热后,模型被用于预测无标签的scATAC-seq细胞的类型。然而,由于组学鸿沟的存在,直接应用模型的预测结果是不可靠的。
作者提出,可以通过建模每个scATAC-seq细胞预测结果的可靠性(reliability),来识别那些容易整合的细胞。可靠性由两个维度来衡量:
- 可区分性 (Discriminability) $d_i^t$: 一个scATAC-seq细胞的嵌入 $e_i^t$,与其最相似的scRNA-seq细胞类型原型(prototype)(即该类型所有scRNA-seq细胞嵌入的中心)之间的余弦相似度。相似度越高,可区分性越强。
- 置信度 (Confidence): 通过细胞的分类损失 $l_i^t$ 来衡量。损失越小,意味着分类器对该预测的置信度越高。
作者假设,可区分性和置信度损失都服从一个双峰高斯混合模型(two-component GMM)。通过拟合GMM,可以计算出每个细胞属于高可区分性/高置信度组件的概率。
第三步:跨组学原型对齐
为了在整合过程中消除组学差异,作者提出了一种跨组学原型对齐(cross-omics prototype alignment)策略。
RNA原型 $c_k^s$ 定义为第k类scRNA-seq细胞的嵌入中心。ATAC原型 $c_k^t$ 对所有被预测为第k类的scATAC-seq细胞的嵌入均值进行可靠性加权平均。
\[c_k^t = \frac{1}{|X_k^t|} \sum_{x_i^t \in X_k^t} p(c_{a2}|d_i^t) p(c_{b1}|l_i^t) f(x_i^t)\]权重 $p(c_{a2}|d_i^t)$ 和 $p(c_{b1}|l_i^t)$ 分别是细胞i属于高可区分性和高置信度GMM组件的概率。模型的整合目标是最小化RNA原型和ATAC原型之间的余弦距离。
\[L_{ALN} = \sum_{k=1}^K \cos(\bar{c}_k^s, \bar{c}_k^t)\]第四步:迭代整合与异构迁移
在每次迭代结束时,scBridge会选择最可靠的一批scATAC-seq细胞(即其GMM概率大于某个阈值 $\alpha$ 的细胞),并将它们及其预测的标签,合并到带标签的训练集中。
然后,利用这个扩增后的、包含了两种模态细胞的训练集,重新训练整个网络(重复步骤1-3)。
\[X_s \leftarrow X_s \cup \tilde{X}_t, \quad X_t \leftarrow X_t \setminus \tilde{X}_t\]通过这种迭代的方式,那些被选中的可靠scATAC-seq细胞像桥梁一样,逐步拉近了RNA和ATAC两个模态之间的距离。随着组学鸿沟的缩小,模型在后续迭代中能够识别并整合更多、差异更大的scATAC-seq细胞。这个过程被称为异构迁移学习,因为它在不同阶段,异构地(非同质地)对待和整合具有不同可靠性水平的细胞。
(可选) 结构保持与新类型发现
为了识别scATAC-seq数据中可能存在的、scRNA-seq数据中所没有的新类型,scBridge提供了一个可选的结构保持损失(structure preservation loss) $L_{STC}$。
该损失项旨在保持scATAC-seq细胞在原始特征空间中的邻近关系。它通过最小化由原始数据构建的邻接矩阵 $A^t$ 和由潜在嵌入重构的邻接矩阵 $\hat{A}^t$ 之间的差异来实现。
当启用这个损失项时,那些与所有已知类型都不同的新类型细胞,其嵌入会被推离所有已知的簇,从而在预测时获得较低的置信度,便于被识别出来。
3. 实验分析
作者在七个不同的多组学数据集上,对scBridge的性能进行了全面的评估,并与scJoint, Seurat, Portal, Harmony, GLUE和Conos等六种SOTA方法进行了比较。
3.1 实验一:在金标准数据集上的性能
作者首先在三个具有细胞配对金标准的数据集(SNARE-seq, SHARE-seq, 10x Multiome)上评估了整合性能。
作者直观地展示了scBridge在SNARE-seq数据集上的迭代过程。可以看到,随着迭代的进行,被选中的可靠scATAC-seq细胞越来越多,而它们与scRNA-seq的相似度(皮尔逊相关性)逐渐降低,同时整体的标签迁移准确率稳步提升至71.95%。这完美地诠释了其从易到难的整合策略(图c)。
UMAP可视化显示,scBridge和scJoint的聚类效果优于其他方法。但在SHARE-seq和10x Multiome这两个更复杂的数据集上,scJoint的模态混合效果不佳,而scBridge则始终能很好地将两种模态混合在一起(图aef)。

定量评估证实了这一点。scBridge在整合质量(harmonized silhouette score)和标签迁移准确性(F1-score)上,均取得了最佳性能。特别是在稀有细胞类型的识别上,scBridge的F1-score远高于次优的scJoint(图bd)。
作者进一步测试了算法对scRNA-seq标注数据量的鲁棒性。结果显示,scBridge的性能对标注量的减少不敏感,即使只有25%的标注数据,其性能依然优于使用全部数据的其他方法(图g)。

3.2 实验二:在图谱级别大规模数据集上的性能
作者在一个包含超过10万个细胞的小鼠细胞图谱数据集上,测试了scBridge的可扩展性和性能。
在计算效率上,scBridge的运行时间呈线性增长,内存消耗保持恒定,展现了其处理大规模数据的强大潜力,其效率在所有方法中名列前茅(图c)。
在整合质量和标签迁移准确性上,scBridge再次全面超越所有基线方法。其F1-score 远高于次优的scJoint(图abe)。
作者发现,scBridge能够做出更精细、更准确的细胞类型注释。例如,它将一批原始的造血干细胞(HSC)正确地细分为了HSC、巨噬细胞和单核细胞,这得到了marker基因表达的验证(图d)。

3.3 实验三:处理不一致细胞类型的能力
在真实场景中,scRNA-seq和scATAC-seq数据中的细胞类型集合可能不完全一致。作者在一个人类心肌梗死数据上测试了这种更具挑战性的场景。
UMAP图显示,只有scBridge能很好地整合常见类型,同时将scATAC-seq中独有的髓系细胞(Myeloid)作为一个独立的簇分离出来(图a)。
作者展示了如何通过其可靠性建模来识别新类型。scBridge对新类型(Myeloid)细胞给出的置信度分数显著低于常见类型,通过一个GMM即可轻松地将它们区分开(图bc)。
定量评估显示,scBridge在新类型发现的F1-score上远高于其他方法,证明了其强大的新类型检测能力(图d)。

3.4 实验四:对噪声的鲁棒性
作者通过对数据进行不同程度的下采样,来模拟dropout噪声,并测试了各方法的鲁棒性。
结果显示,scBridge对scRNA-seq和scATAC-seq数据的噪声都表现出极强的鲁棒性。即使在75%的dropout率下,其性能也几乎不受影响。相比之下,GLUE和scJoint的性能则随着噪声的增加而显著下降。

类似地,作者还测试了对scRNA-seq数据中标签噪声的鲁棒性。结果显示,即使在20%的标签被随机打乱的情况下,scBridge的性能依然稳定,并优于所有其他方法。
