scNCL:通过邻域对比正则化从RNA迁移标签到ATAC.
0. TL; DR
scNCL 是一种从scRNA-seq向scATAC-seq进行标签迁移方法。scNCL首先将scATAC-seq的peak特征转换为基因活性矩阵(gene activity matrix, GAM),引入邻域对比学习(neighborhood contrastive learning, NCL),通过保持细胞在原始peak特征空间中的邻近结构,来弥补特征转换带来的信息损失。
为了学习一个可迁移的潜在特征,scNCL通过一个统一的神经网络框架,协同优化四个损失函数:
- 特征投影正则化损失(Projection Regularization Loss): 用于规范化潜在空间的结构。
- 特征对齐损失(Feature Alignment Loss): 用于协调scRNA-seq和scATAC-seq的嵌入。
- 交叉熵损失(Cross-Entropy Loss): 在scRNA-seq数据上进行有监督学习,以学习细胞类型的区分性特征。
- 邻域对比学习损失(NCL Loss): 在scATAC-seq数据上进行自监督学习,以保持其原始的拓扑结构。
在多个基准数据集上的实验表明,scNCL不仅在常见类型的标签迁移任务上实现了高准确性和鲁棒性,而且在新类型的检测上也表现出可靠的性能。
1. 背景介绍
单细胞ATAC-seq(scATAC-seq)技术为我们打开了一扇观察细胞表观遗传调控世界的窗户,它能够测量染色质的开放状态,从而帮助我们理解基因调控网络。然而,要从这些数据中准确地鉴定细胞类型,却是一项艰巨的任务。其主要挑战来自scATAC-seq数据固有的三大难题:高维度(数十万个peaks)、极端稀疏性(大量的零值)和不断增大的数据规模。
与此同时,我们已经积累了大量经过精心注释的单细胞RNA-seq(scRNA-seq)数据集。一个自然而然的想法是:我们能否利用这些注释丰富的scRNA-seq数据作为参考图谱,来自动地为那些难以注释的scATAC-seq数据打上标签?
这个任务被称为标签迁移(label transfer),它属于对角整合(diagonal integration)的范畴。因为在这类任务中,两个数据集的细胞是非配对(unpaired)的,它们的特征也是不匹配(unmatched)的(一个是基因,一个是peaks)。
现有的对角整合方法主要采用两种策略来处理异构特征:
- 简化为水平整合。这种策略首先将scATAC-seq的peak特征,通过一些生物学先验知识(如基因与启动子的关系),转换为一个基因活性矩阵。这样两种数据就有了共同的基因特征,问题就简化为了一个标准的水平整合任务。这种方法降低了scATAC-seq的特征维度,减少了计算复杂度,并通过共享特征空间降低了过度对齐的风险。但特征转换过程是有损的。将分散的peak信号强行聚合到基因上,不可避免地会丢失原始的、精细的调控信息,从而影响整合性能。
- 直接对原始特征建模。这种策略直接将scRNA-seq的基因矩阵和scATAC-seq的peak矩阵,分别输入到不同的神经网络中,然后通过对抗训练或最大均值差异等方法,在潜在空间中对齐它们。这种方法保留了原始数据的全部信息。但由于缺乏任何先验的对应关系,这种端到端的对齐很容易陷入人工对齐或过度对齐的陷阱,即模型可能只是在数学上将两个分布拉近,而忽略了真实的生物学对应关系。
作者认为,简化为水平整合是一个很好的起点,但必须解决其信息损失的弊病。为此,作者提出了scNCL。它引入了邻域对比学习,旨在补偿特征转换过程中丢失的结构信息,从而实现更精准、更鲁棒的标签迁移。
2. scNCL 方法
scNCL是一个基于神经网络的半监督框架,其核心在于通过四个协同工作的损失函数,来学习一个既具区分度又可迁移的潜在空间。

2.1 模型架构
scNCL的架构主要包含两个部分:一个特征提取器网络 $f$,和一个分类器网络 $g$。
输入包括一个带标签的scRNA-seq数据集的基因表达矩阵(GEM) $X_l$、一个无标签的scATAC-seq数据集的基因活性矩阵(GAM) $X_u$、一个根据原始scATAC-seq peak数据构建的kNN图。
特征提取器 $f$(由参数 $\theta$ 化的神经网络)负责将输入的GEM或GAM投影到一个低维的嵌入空间中,得到嵌入向量 $h_u = f(x_u, \theta)$ 和 $h_l = f(x_l, \theta)$。分类器 $g$ 接收嵌入向量 $h$,并通过Softmax层输出其属于K个已知细胞类型的概率向量 $r$。
2.2 损失函数
为了训练出高质量的特征提取器 $f$ 和分类器 $g$,scNCL设计了四个损失函数,它们共同作用于模型的学习过程。
2.2.1 交叉熵损失 (Cross Entropy Loss, $L_{CE}$)
这是模型进行有监督学习的基础。它只作用于带标签的scRNA-seq数据 $X_l$,其目标是最小化预测标签与真实标签之间的交叉熵。
\[L_{CE} = -\frac{1}{|B_l|} \sum_{b \in B_l} \sum_{k=1}^K 1(y_b^l = k) \cdot \log(r_b(k))\]这个损失函数驱动模型学习能够区分不同细胞类型的判别性特征。
2.2.2 投影正则化损失 (Projection Regularization Loss, $L_{PR}$)
该损失项改编自scJoint中的NNDR损失,旨在正则化整个潜在空间的结构,使其具有良好的形状(正交且变化大)。
原始NNDR损失包含三个部分:最大化嵌入的方差、最小化嵌入维度间的相关性(促使正交)、以及将嵌入的均值固定在零附近。作者发现,如果将完整的NNDR损失同时应用于scRNA-seq和scATAC-seq,可能会加剧两者嵌入空间的不对齐。因为scRNA-seq的嵌入还受到CE损失的影响,其方差会增长得更快。
因此对于scRNA-seq数据,只使用NNDR的后两项(正交化和中心化);对于scATAC-seq数据,则使用完整的NNDR损失。这种非对称的正则化,有助于保持两种模态嵌入的方差增长速度一致,从而促进对齐。
2.2.3 特征对齐损失 (Feature Alignment Loss, $L_{FA}$)
这个损失项的目的是显式地协调和对齐scRNA-seq和scATAC-seq的嵌入。在每个mini-batch中,对于scATAC数据中的每个细胞,作者在scRNA数据中找到与其嵌入余弦相似度最高的那个细胞。然后,选取相似度得分最高的$p\%$的细胞对,并最大化它们之间的余弦相似度。
\[L_{FA}(B_u) = - \frac{1}{|F_p|} \sum_{b \in F_p} \cos(h_b^u, h_i^l)\]这个损失项直接将可能属于同一类型的细胞在潜在空间中拉近。
2.2.4 邻域对比学习损失 (Neighborhood Contrastive Learning Loss, $L_{NCL}$)
这个损失旨在解决GAM转换带来的信息损失问题。如果两个scATAC-seq细胞在原始的peak空间中是近邻,那么它们在scNCL学习到的潜在空间中也应该是近邻。
首先在原始的scATAC-seq peak数据上构建一个kNN图。在训练时,对于mini-batch中的每个scATAC细胞 $x_b^u$,从其kNN图中随机采样一个邻居 $\hat{x}_b^u$,构成一个正样本对。mini-batch中的所有其他细胞都构成负样本对。
然后通过一个对比损失函数,来拉近正样本对的嵌入($h_b^u$ 和 $\hat{h}_b^u$),同时推开负样本对的嵌入。
\[L_{NCL} = -\frac{1}{2N} \sum_{b=1}^N \left( \log \frac{r(h_b^u, \hat{h}_b^u)}{\sum_r r(h_b^u, \hat{h}_r^u) + \sum_{r \ne b} r(h_b^u, h_r^u)} + \log \frac{r(\hat{h}_b^u, h_b^u)}{\sum_r r(\hat{h}_b^u, h_r^u) + \sum_{r \ne b} r(\hat{h}_b^u, \hat{h}_r^u)} \right)\]其中 $r(u, v) = \exp(\langle u, v \rangle / (\tau |u| |v|))$ 是基于余弦相似度的函数。
这个NCL损失作为一种强大的正则化项,有效地将原始peak空间的拓扑结构信息注入到模型的学习过程中,从而弥补了GAM转换造成的信息损失。
3. 实验分析
作者在四个大规模、跨物种、跨平台的数据集上,将scNCL与七种SOTA方法(Seurat 4, scGCN, scNym, Portal, Concerto, scJoint, GLUE)进行了全面的比较。
3.1 实验一:常见类型迁移
作者首先在scRNA-seq和scATAC-seq数据具有相同细胞类型的场景下,评估了各方法的标签迁移准确性。
在所有测试数据集上,scNCL的总体准确率均名列前茅。在复杂的MCA-subset和HFA-subset数据集上,scNCL的性能显著优于其他所有方法(图a)。混淆矩阵显示,scNCL不仅在大类上表现出色,在稀有细胞类型(如仅占2%的单核细胞)的识别上也远超其他方法(图b)。UMAP可视化直观地证实了这一点。在scNCL的嵌入空间中,稀有的单核细胞和NK细胞形成了清晰、独立的簇;而在scJoint的嵌入中,它们则与其他细胞类型混杂在一起(图c)。

3.2 实验二:新类型检测
在更真实的场景中,scATAC-seq数据中往往包含scRNA-seq参考数据中所没有的新类型。一个好的迁移学习方法,不仅要能准确标注常见类型,还要能可靠地识别出这些新类型。
作者使用CITE-ASAP和MCAOS两个包含新类型的数据集进行了测试,并通过OSCR(综合了常见类型准确率和新类型检测率的指标)和AUROC来评估性能。
在两个数据集上,scNCL都取得了最高的OSCR得分,实现了在准确标注和发现新奇之间的最佳平衡(图ab)。作者通过核密度估计(KDE)图,可视化了模型对常见类型和新类型的预测置信度分布。结果显示,scNCL对常见类型的预测置信度主要集中在1附近,而对新类型的预测置信度则集中在0附近,两者分布分离得非常清晰。相比之下,scJoint对所有类型的细胞都给出了高置信度,使其难以区分新类型(图c)。

这些结果表明,scNCL拥有卓越的新类型检测能力。
3.3 实验三:优化现有图谱的注释
最后,作者展示了scNCL的一个强大应用:利用高质量的scRNA-seq图谱,来纠正和优化一个已标注的scATAC-seq图谱中的潜在错误。
在MCA数据集中,作者发现scNCL将一批原始被标注为内皮细胞的肺部细胞,高置信度地重新标注为了基质细胞(stromal cells)。通过检查marker基因(如Pecam1和Col1a1)的表达,作者证实了scNCL的新注释是正确的(图ab)。
类似地,scNCL将一批心脏中的内皮细胞修正为了成纤维细胞(fibroblast),这也得到了marker基因(Cav1和Dcn)表达的支持(图cd)。

这些案例有力地证明,scNCL不仅是一个标签迁移工具,更是一个强大的生物学发现和注释优化工具。