scI2CL:通过组内和组间对比学习有效整合单细胞多组学.
0. TL; DR
scI2CL (single-cell Intra- and Inter-omics Contrastive Learning) 是一个基于双重对比学习的多组学融合框架。scI2CL针对单个模态内部通过多视角数据增强和多头注意力机制学习捕捉基因/peaks之间的局部依赖关系;针对不同模态之间通过交叉注意力对齐特征,并利用配对/非配对细胞构建正/负样本学习捕捉跨模态的互补信息和一致性。
scI2CL学习到的综合性细胞表征,在多个下游任务中展现了SOTA级别的性能:在四个真实数据集上,聚类准确性全面超越8个主流方法;成功识别出三个先前未被报道的CD14单核细胞亚群;精准地修正了数据集中CD4+ T细胞的错误注释,并是唯一成功重建出完整造血发育轨迹的方法。
1. 背景介绍
近年来,单细胞测序技术取得了长足的进步,使得在单个细胞水平上对多种分子层面(即“组学”)进行定量分析成为可能。其中,单细胞转录组测序(scRNA-seq)和单细胞染色质可及性测序(scATAC-seq)分别揭示了细胞的基因表达状态和表观遗传调控潜能。对这两种互补的组学数据进行整合分析,对于全面刻画细胞异质性、阐明基因调控机制以及理解复杂的生物学过程具有至关重要的意义。
尽管联合分析(co-assay)技术(如SNARE-seq, 10x Multiome)能够同时获取同一个细胞的多种组学信息,但这些技术目前仍面临通量相对较低、数据稀疏性更高等挑战。因此,如何高效地整合这些多组学数据,以克服其内在的技术局限性,是当前生物信息学领域的一个核心议题。
现有的深度学习整合方法虽然取得了显著进展,但普遍存在两个主要的局限性:
- 大多数方法在进行特征学习时,倾向于将每个模态的表达谱视为一个整体,而忽略了模态内部特征间的局部依赖关系(intra-omics local dependencies)。例如,在scRNA-seq数据中,一组功能相关的基因往往表现出协同调控或共表达模式。这种蕴含在单个细胞内部的、特征之间的复杂关联,是理解细胞状态的重要信息源,但常被现有编码器-解码器结构所忽视,导致学习到的单模态表征不够精细。
- 当前方法在对齐不同模态时,主要依赖于数据中的配对信息(paired information),即来自同一个细胞的跨模态测量。它们通过强制拉近这些配对样本在潜在空间中的距离来实现整合。然而,这种策略未能充分利用数据集中更广泛存在的、但同样具有价值的非配对信息(unmatched information)。在存在显著技术噪声和批次效应的情况下,仅依赖于配对样本间的关系可能不足以学习到鲁棒的跨模态映射,从而限制了模型捕捉模态间共性与特异性的能力,最终影响了细胞表征的质量和下游分析的准确性。
为了克服上述局限,本文提出了一种新的整合范式,该范式认为一个高质量的统一细胞表征必须同时捕捉到模态内部的精细结构和模态之间的互补关系。
2. scI2CL 模型
scI2CL的核心是一个双模块的对比学习框架,分别负责从模态内部和模态之间挖掘信息,最终融合成一个强大的统一细胞表征。

2.1 模块一:模态内对比学习 (Intra-CL)
Intra-CL模块的目标是为每个单一模态(如scRNA-seq)学习一个既包含全局信息又包含局部依赖的高质量特征表示。
对于输入的原始表达矩阵$X$,通过随机列掩码(randomly masking columns)的方式,生成$T$个不同的子视图矩阵 $X^m$。每个子视图都只包含了原始特征的一部分。
- 原始的、完整的表达矩阵$X$和$Y$被送入两个独立的、基于ZINB(零膨胀负二项)自编码器的网络,学习其全局的低维表示 $Z_X$ 和 $Z_Y$。ZINB分布能很好地处理单细胞数据的稀疏性和过离散性。
- $T$个子视图矩阵 $X^m$ 和 $Y^m$ 也被送入同样的自编码器,得到$T$组局部特征。
为了整合来自不同子视图的局部信息,引入了多头自注意力机制(Multi-head Attention)。它能够计算不同视图特征之间的关联权重,并将其融合成一个统一的、捕捉了丰富局部依赖关系的特征表示 $\hat{Z}_X, \hat{Z}_Y$。
\[\hat{Z}_{\{X,Y\}} = \text{maxpooling}(\text{mulhead}(Z_{\{X,Y\}}^m)W^O)\]最后通过一个简单的均方误差(MSE)损失,来软性地拉近全局特征$Z$和融合后的局部特征 $\hat{Z}$。
\[L_{MSE} = \frac{1}{N} \sum_{i=1}^N (Z_i - \hat{Z}_i)^2\]这种软融合策略,既能将局部依赖信息注入到最终的单模态表征中,又可以防止局部视图中的噪声过度干扰全局特征。通过Intra-CL模块,为每个模态都得到了一个信息更丰富的初始特征表示。
2.2 模块二:模态间对比学习 (Inter-CL)
Inter-CL模块的目标是在Intra-CL的基础上,进一步对齐两种模态,学习一个能区分细胞身份的联合嵌入。
为了在保留各模态个性的同时实现信息交互,采用了交叉注意力机制。例如,从scRNA-seq($r$)到scATAC-seq($a$)的对齐,是以$r$的特征为Query,以$a$的特征为Key和Value,来计算加权后的特征表示 $Z_{r \to a}$。
\[\text{CM}_{r \to a}(Z_r, Z_a) = \text{softmax}\left(\frac{(Z_r W_r^Q)(Z_a W_a^K)^T}{\sqrt{d}}\right) Z_a W_a^V\]通过双向的交叉注意力,得到了既保留自身信息、又融入了对方上下文的对齐后特征 $Z_{r \to a}$ 和 $Z_{a \to r}$。
多组学对比损失 (MOC Loss) 利用已知的配对细胞信息进行监督。其目标是最大化配对细胞在两种模态间特征的互信息,即拉近真实配对的相似度。
\[L_{MOC} = -\frac{1}{2} \left( \sum_i y_{r \to a} \log p_{r \to a} + \sum_i y_{a \to r} \log p_{a \to r} \right)\]其中 $y$ 是真实的one-hot配对矩阵,$p$ 是通过softmax归一化后的相似度矩阵。
多组学匹配损失 (MOM Loss)利用了非配对信息来增强模型的判别能力。将对齐后的两种模态特征 $Z_{r \to a}$ 和 $Z_{a \to r}$ 进行拼接和融合,得到最终的联合嵌入$Z$,这被视为正样本;通过将非配对的细胞特征进行拼接融合构造出负样本 $Z_{neg}$。训练一个简单的分类器,来区分正样本和负样本。其损失函数是一个二分类交叉熵损失:
\[L_{MOM} = - \sum_i y_Z^i \log \hat{y}_Z^i\]通过这个MOM损失,模型被逼迫去学习如何区分真正的跨模态互补信息和虚假的随机组合,从而能更精准地捕捉到两种模态间的内在关联。
scI2CL的最终损失是上述所有部分的加权和:
\[L = \lambda_1 L_{rec} + \lambda_2 L_{MSE} + \lambda_3 L_{MOC} + \lambda_4 L_{MOM}\]通过联合优化这个复杂的损失函数,scI2CL得以学习到一个真正全面的、高度可区分的细胞表征。
3. 实验分析
作者在四个真实的、广泛使用的单细胞多组学数据集上(PBMC-10k, PBMC-3k, Ma-2020, CellMix),对scI2CL的性能进行了全面的评估,并与8个SOTA方法进行了比较。

3.1 实验一:细胞聚类
细胞聚类是评估整合效果最直接的指标。
在PBMC-10k, PBMC-3k和Ma-2020三个主要数据集上,scI2CL的NMI和ARI得分均为第一,显著优于所有其他方法。在更简单的CellMix数据集上也位列第二(图a)。作者定义了一个综合排名分数$rs$,scI2CL以绝对优势位居榜首,证明了其全面的优越性(图c)。UMAP图直观地显示,scI2CL的聚类结果边界最清晰,类内最紧凑,类间混杂最少,尤其是在区分一些相似的T细胞亚群时,优势明显(图d)。

3.2 实验二:发现新的细胞亚群
作者深入探究了PBMC-10k数据集中CD14+ Monocyte(单核细胞)这一大类。
scI2CL的UMAP图清晰地将CD14+ Monocyte分成了三个独立的亚簇。这是所有其他被测试方法都未能发现的。作者对这三个亚群进行了差异表达基因(DEG)分析,发现它们在多种已知的单核细胞亚型marker基因(如VCAN, HLA-DRA, NPC2等)上表现出显著的差异表达模式(图b, c)。

基因集富集分析(GSEA)进一步表明,这三个亚群在免疫、癌症、代谢等相关的KEGG通路活性上存在明显差异(图d)。作者在scATAC-seq数据上也进行了类似的分析,同样观察到了这三个亚群在基因活性得分上的显著差异(图e)。

这些多方面的证据共同证明,scI2CL凭借其强大的表征学习能力,成功地揭示了CD14+ Monocyte内部真实存在的、但被传统方法忽略的精细异质性。
3.3 实验三:校正细胞注释错误
在PBMC-3k数据集中,作者注意到CD4+记忆T细胞的分布异常。
scI2CL的UMAP图将原始标注为CD4+记忆T细胞的群体分成了两个明显分离的亚群。其中一个亚群(Subgroup 2)与CD4+初始T细胞(Subgroup 3)紧密混合在一起。
作者检查了T细胞分化状态的经典marker。结果显示,Subgroup 2和3都高表达初始T细胞的marker(如SELL, CCR7),而Subgroup 1则高表达记忆T细胞的marker(如ITGAL)。这强烈暗示,Subgroup 2的细胞被错误地标注为了记忆T细胞,它们实际上是初始T细胞。
无论是比较全转录组的表达谱,还是比较scATAC-seq的基因活性谱,其相关性分析都一致表明,Subgroup 2与Subgroup 3(初始T)的相似度远高于其与Subgroup 1(记忆T)的相似度。
作者用校正后的标签重新评估所有方法的性能。结果显示,scI2CL的性能提升幅度是所有方法中最大的之一。这说明scI2CL不仅能发现错误,而且其学习到的表征最符合真实的生物学状态。

3.4 实验四:重建细胞发育轨迹
作者尝试在PBMC-10k数据集上重建从造血干/祖细胞(HSPC)到B细胞谱系的分化轨迹。
基于scI2CL学习到的嵌入,作者使用Slingshot成功地推断出了一条完全符合已知生物学过程的发育轨迹:HSPC → Naive B → Intermediate B → Memory B。

作者发现,如果只使用scRNA-seq或scATAC-seq单一模态,推断出的轨迹都是错误或不完整的。

这个实验地证明了scI2CL通过有效融合多组学信息,其学习到的细胞表征能够更精准地捕捉到细胞状态转换的连续动态过程。