对比学习能够快速映射数百万尺度的多模态单细胞图谱.
- paper:Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale
0. TL; DR
Concerto(contrastive learning of cell representations)是一种基于自监督蒸馏(self-supervised distillation)和对比学习(contrastive learning)的深度学习方法,用于单细胞多组学图谱的建模。Concerto 采用非对称的教师-学生网络架构,通过最大化同一细胞在不同增强视图下的一致性来学习高质量的细胞嵌入。该方法仅需通过区分每个细胞与其他细胞,即可适应多种下游任务,包括自动细胞类型分类、数据整合、批次校正以及参考映射。
在模拟和真实数据集上的基准测试表明,Concerto 在各项任务中均显著优于竞争方法。作者利用 Concerto 将 COVID-19 患者免疫细胞映射到综合参考图谱,成功重现了不同疾病状态下的差异免疫响应,并发现了疾病特异性细胞状态。此外,Concerto 具有出色的可扩展性,可在 1.5 小时内构建包含 1,000 万个细胞的参考图谱,并在 8 秒内完成 10,000 个细胞的查询映射。
1. 背景介绍
近年来,单细胞多组学工具(single-cell multiomics tools)以前所未有的分辨率彻底改变了对组织的表征方式。大规模项目如 Human Cell Atlas 和 Tabula Muris Atlas 正接近百万级(multimillion)规模。现有的计算流程如 Seurat、SCANPY 和 Pegasus 已被广泛开发和基准测试。
单细胞数据分析具有一些独特特征:
- 单细胞 RNA 测序数据中存在大量的零值(zero counts),这可能源于技术 dropout 或真实的生物学信号。目前关于其潜在分布仍存在争议。主流软件包通常依赖特征选择(高变基因,highly variable genes, HVGs)和线性降维(主成分分析,PCA)来提取主要变异,这可能导致信息丢失。深度学习方法为建模所有基因之间的非线性关系提供了有前景的解决方案。
- 批次效应(batch effects)广泛存在于不同技术、实验条件和供体之间。将生物信号与混杂效应(confounding effects)分离对于数据整合至关重要。Seurat v.3 使用互近邻(mutual nearest neighbours, MNN)识别跨批次的锚定细胞对,但只能一次整合两个批次,且随着细胞数量增加,内存消耗呈指数级增长。Harmony 通过迭代模糊聚类和线性校正,而 trVAE 则利用条件变分自编码器(conditional VAE)校正批次效应。理想的方法应能扩展至百万级规模,同时整合多个批次,并避免混合不重叠的群体。
- 查询到参考映射(query-to-reference mapping)已成为快速解释新数据集的新范式。与刚性的监督分类不同,这被视为一种无监督迁移学习(unsupervised transfer learning)问题,通过学习查询细胞的嵌入(embeddings)并基于参考细胞进行投票(voting)来传递注释。
对比学习(Contrastive learning)最近在计算机视觉领域(如 SimCLR 和 MoCo)取得了巨大成功。这类方法通过最小化对比损失(contrastive loss)来学习增强视图之间的一致性。受其自然语言处理中 SimCSE 的启发,作者提出 Concerto,一种用于单细胞分析的自蒸馏对比学习框架。通过将每个未标记细胞定义为实例判别(instance discrimination)的预训练任务,Concerto 以自监督方式学习语义不变的细胞表示。
2. 方法介绍
Concerto 利用自蒸馏(self-distillation)对比学习框架,配置为非对称的教师-学生架构(asymmetric teacher-student architecture):
- 教师网络(Teacher):规模更大,通过注意力机制(attention mechanism)将基因嵌入(gene embeddings)聚合为细胞嵌入(cell embeddings)。
- 学生网络(Student):规模较小,简单地使用稠密操作(dense operation)将离散输入转换为细胞嵌入。
对于单细胞 RNA-seq 数据,归一化的基因 count 矩阵被转换为索引-值格式(index-value format):索引是基因身份,由包含某物种所有基因的字典定义。值是细胞中对应的 count 值。这种编码方案支持稀疏高维输入并提高计算效率。

⚪ 教师网络
教师网络接受 $X_{\text{indices}} \in \mathbb{R}^G$ 和 $X_{\text{counts}} \in \mathbb{R}^G$,其中 $G$ 表示基因数量。
首先,通过嵌入层将基因索引映射到 $d$ 维向量空间(默认 $d=128$):
\[\text{emb} = \text{Embedding}(x_{\text{indices}})\]然后,计算加权的隐藏向量:
\[\text{hidden}_i = \text{emb} \times x_{\text{counts}}\]接下来,使用注意力机制聚合基因嵌入。隐藏向量首先经过带有 tanh 激活的多层感知机(MLP):
\[\text{hidden}_i' = \tanh(\text{hidden}_i)\]然后,通过细胞上下文向量(cellular context vector)$u \in \mathbb{R}^d$ 计算注意力权重:
\[\text{attention}_i = \text{softmax}(\text{hidden}_i' \cdot u)\]通过加权求和获得聚合向量:
\[\text{hidden} = \sum_i (\text{attention}_i \times \text{hidden}_i')\]最后,经过批次归一化、dropout 层和 ReLU 激活的稠密层,得到教师网络的输出 $z_{\text{teacher}} \in \mathbb{R}^d$:
\[z_{\text{teacher}} = \text{ReLU}(\text{Dropout}(\text{BatchNormalization}(\text{hidden})))\]为校正批次效应,添加了域特定的批次归一化层(domain-specific batch normalization layer)。
⚪ 学生网络
学生网络仅接受 $X_{\text{counts}} \in \mathbb{R}^G$ 作为输入,依次通过稠密层、批次归一化、dropout 层和 ReLU 激活,得到输出 $z_{\text{student}} \in \mathbb{R}^d$:
\[z_{\text{student}} = \text{ReLU}(\text{Dropout}(\text{BatchNormalization}(\text{Dense}(x_{\text{counts}}))))\]⚪ 自蒸馏
知识通过自蒸馏在两者之间传递。通过为每个未标记细胞定义实例判别(instance discrimination)的预训练任务,Concerto 通过最大化每个细胞的教师视图和学生视图之间的一致性来学习语义不变的嵌入。
数据增强通过在输出层前添加随机 dropout 掩码(mask)在模型级别生成,这种方法受到 SimCSE 的启发,可在不改变原始分子输入的情况下实现最小化数据增强。
对比学习在单位超球面空间上进行,显式比较细胞嵌入对。对于批次中的 $N$ 个细胞,通过教师和学生网络生成 $2N$ 个数据点(每个细胞两个视图)。
给定正样本对 $(j, j^+)$ ,其中 $j$ 来自教师视图,$j^+$ 来自学生视图,对比损失(normalized temperature-scaled cross-entropy loss, NT-Xent)定义为:
\[\ell(j, j^+) = -\log \frac{\exp(s_{j,j^+}/\tau)}{\sum_{k=1}^{2N} \mathbb{I}_{[k \neq j]} [\exp(s_{k,j}) + \exp(s_{k,j^+})]}\]其中相似度 $s_{\alpha,\beta}$ 通过余弦相似度计算:
\[s_{\alpha,\beta} = \frac{z_{\text{teacher},\alpha}^T \cdot z_{\text{student},\beta}}{\tau \cdot \|z_{\text{teacher},\alpha}\| \cdot \|z_{\text{student},\beta}\|}\]总损失为:
\[\mathcal{L} = \frac{1}{2N} \sum_{k=1}^N [\ell(j, j^+) + \ell(j^+, j)]\]其中 $\tau$ 是可调的温度系数(temperature coefficient),默认设为 0.1。
⚪ 多组学整合
对于多组学数据(如 RNA 和蛋白质),Concerto 通过对各模态的教师或学生输出进行元素级求和(element-wise summation)来生成统一的细胞视图:
\[z_{\text{student}}^{\text{multi}} = \text{Add}(z_{\text{student}}^{\text{RNA}}, z_{\text{student}}^{\text{protein}}) \\ z_{\text{teacher}}^{\text{multi}} = \text{Add}(z_{\text{teacher}}^{\text{RNA}}, z_{\text{teacher}}^{\text{protein}})\]⚪ 下游任务适配
- 自动细胞类型分类(刚性注释):
- 数据集内预测(Intra-dataset):通过在预训练后添加额外的全连接分类层和 softmax 操作,使用交叉熵损失(cross-entropy loss)进行微调。
- 跨数据集预测(Inter-dataset):添加域适应模块(domain adaptation module),结合监督交叉熵损失和无监督一致性训练损失(consistency training loss),通过 dropout 增强对齐源域和目标域的分布。
- 无监督聚类:将细胞表示学习与聚类解耦为两个阶段。学习到的嵌入可通过 Leiden 或 Louvain 算法进行聚类。
- 批次校正与数据整合:利用源感知批次归一化(source-aware batch normalization),仅对同一来源的细胞在训练小批次内进行批次归一化,从而提取批次不变的生物学信号。
- 查询到参考映射:
- 直接推断:查询细胞通过训练好的教师网络计算嵌入,使用 k-近邻(k-nearest-neighbour, k-NN)投票分类器(通常 $k=5$)传递参考注释。
- 无监督微调:也可使用参考权重作为初始化,在查询细胞上实现无监督微调。
- 缺失模态推断:对于只有 RNA 数据的查询细胞,基于推断的查询嵌入,通过计算参考中 5 个最近邻的归一化蛋白质表达平均值,来预测未测量的蛋白质表达。
3. 实验分析
3.1 自动细胞类型分类性能
作者在 PBMC45k 数据集($n=31,021$,9 个批次,7 种实验方案)上对比了 Concerto 与 SciBet、Cell BLAST、SingleR、Moana、MARS 以及端到端版本的 Concerto-E2E。
- Figure a(数据集内五折交叉验证):Concerto 达到了最高的中位数 F1-score(0.926),且在各折中表现最稳定。相比之下,Concerto-E2E(无对比预训练)得分较低(0.867),证明了预训练的有效性。
- Figure b(跨数据集评估):以一个方案作为测试集,其余作为训练集(重复 5 次)。Concerto 在几乎所有训练-测试分组上都显著优于其他方法。当 Seq-well 数据集被留出时,所有方法性能都有所下降,可能是因为基于微孔(microwell)的该方法与基于液滴(droplet)的方法差异较大。
- Figure c(细粒度分类与稳健性):作者将胸腺 scRNA-seq 图谱($n=107,969$)与 PBMC45k 结合,构建了一个多层次的免疫细胞数据集。该数据集包含了沿 T 细胞发育轨迹的细微状态差异。Concerto 达到了最高的中位数 F1-score(0.830),显著优于 SingleR(0.705)和 SciBet(0.667),能够很好地区分双阴性 T 细胞、双阳性 T 细胞和单阳性 T 细胞等不同发育阶段。
- Figure d(未见细胞类型识别):使用 PBMC160k 数据集($n=161,764$)评估 Concerto 对训练集中不存在细胞类型的拒绝能力(none-of-the-above, NOTA)。作者从训练集中移除了不同粒度的 T 细胞(一级:所有 T 细胞;二级:CD4 T 细胞;三级:CD4 记忆 T 细胞)。结果显示,Concerto 能够清晰区分验证集(Valid)和测试集(Test)的置信度曲线,尤其在二级掩码情况下表现良好。即使在最具挑战性的三级场景下,Concerto 仍能获得双峰曲线,而 SciBet 则错误地将 CD4 记忆 T 细胞分配为其他类型。
- Figure e(多模态注释):在 PBMC160k 上,作者分别使用 RNA、蛋白质(Protein)或两者(RNA + protein)作为输入训练 Concerto。Concerto 的中位数 F1-score 分别为 0.805、0.770 和 0.819,表明统一多模态信息能够实现更准确的分类。双模态输入下,Concerto 比 Azimuth 绝对提升了 4.8%。
- Figure f(跨组织注释):在 Tabula Muris Senis(TMS)图谱($n=101,045$,23 个小鼠组织)上评估组织内预测。Concerto 在所有组织上都大幅优于 SciBet,在膀胱(bladder,0.999)、脑髓系(brain myeloid,0.999)和乳腺(mammary gland,0.996)上达到了最高的平均准确率(ACC)。
- Figure g:跨组织注释评估(留一组织法)。通过添加域适应模块,Concerto 在 22 个被留出组织上都取得了优于 MARS 的 ARI(调整兰德指数),从脾脏(spleen)的 +89.4% 到膀胱(bladder)的 +0.613% 不等。
- Figure h:以四肢肌肉(limb muscle,$n=3,855$)为例的 UMAP 可视化对比。真实标签(左)与 Concerto 预测(右)高度一致。
- Figure i:Sankey 图展示了跨组织标签转移。骨骼肌卫星细胞(skeletal muscle satellite cells)和间充质干细胞(mesenchymal stem cells)正确映射到了其他肌肉和脂肪组织的对应细胞,而 MARS 错误地使用 T 细胞注释了一些卫星细胞。

3.2 无监督聚类与多组学整合
- Figure a(聚类性能基准):在 PBMC45k(10X 协议,$n=11,377$,2,000 HVGs)上比较 Concerto(Leiden 聚类)与 PCA + Leiden、Seurat、scDeepCluster 等方法。Concerto + Leiden 在 ARI(0.750)、NMI 和 Silhouette score 上都显著优于其他方法,清晰地分离了 CD14 单核细胞、CD16 单核细胞、树突状细胞(dendritic cells)以及 CD4 T 和细胞毒性 T 细胞的边界。
- Figure c(多模态整合可视化):Concerto 学习的嵌入在 PBMC160k 上展示了 CD4 和 CD8 T 细胞的清晰分离。RNA 单独使用时会将 NK 细胞与 CD8 T 细胞部分混合,而蛋白质单独使用时能更好地区分 CD4/CD8,但将树突状细胞与单核细胞混合。RNA + protein 的整合清晰地展示了发育轨迹方向(如 CD4 初始/中枢记忆/效应记忆、CD8 初始/TCM/TEM 以及 B 细胞亚型),并能识别 Treg、MAIT 细胞和 $\gamma\delta$-T 细胞亚群。
- Figure d(模型可解释性):热图显示了教师网络注意力权重如何自动提取出与已知细胞类型对应的分子标记。CD4 和 CD8 T 细胞在 CD4 和 CD8 蛋白标记上显示出不同的注意力模式,而在 RNA 转录本上没有显著差异。B 细胞中 CD19 蛋白和 MS4A1(CD20)RNA 成为关键标记。激活的 NK 细胞中 CD16 蛋白和细胞毒性 RNA 标记(GZMB, GNLY)被成功提取。

3.3 批次校正与过度校正分析
作者在包含 8 个批次、5 种技术($n=14,890$)的多供体人胰岛(HP)数据集上评估了批次校正性能。
- Figure e(人胰岛数据集整合):UMAP 可视化显示,Concerto 成功整合了不同批次,同时保持了细胞类型的纯度(如 Alpha、Beta、Delta、Ductal 等)。相比之下,Seurat v.3、Harmony 和 trVAE 虽然也能整合批次,但在某些场景下存在局限。
- Figure g:定量评估显示,在六种 HVG 数量场景(2,000 到所有基因)中,Concerto 都取得了最高的 ASW(平均轮廓宽度,衡量细胞类型纯度,值越高越好),尽管 kBET(批次混合度,值越高表示批次混合越好,但过度追求可能意味着过度校正)得分较低。作者认为,只要 kBET 达到一定阈值确保生物学信号聚合而非被批次效应混淆,无需过度追求更高的 kBET。
- Figure f(过度校正分析):作者设计了一个部分重叠数据集的场景,手动移除了除 CEL-Seq2 外所有技术中的 beta 细胞。Harmony 和 Seurat 将 beta 细胞与其他类型混合(过度校正),而 Concerto 清晰地保持了 beta 细胞的分离(Beta-ASW = 0.34 vs Harmony 的 0.29)。
- Extended Data Fig. 1c:在模拟数据集上,移除 Batch 1 外的所有 cell type-2 细胞后,Concerto 仍能清晰分离 cell type-2 细胞,而 Harmony、Seurat 和 trVAE 均出现了不同程度的过度校正。

3.4 查询到参考映射(Query-to-reference Mapping)
- Figure a(跨技术与跨物种映射):在两个实验中评估: HP→inDrop:以 inDrop Baron 数据集($n=8,569$)作为查询,其他四种技术($n=6,321$)作为参考; HP→MP:以小鼠胰岛(MP,$n=1,880$)作为查询,人胰岛(HP)作为参考。Concerto 在两个实验中都达到了最高的平均 ACC(0.981 和 0.927),优于 scArches、Symphony 和 Seurat v.4。
- Figure b:混淆矩阵显示 Concerto 能够准确跨技术和跨物种传递标签。
- Figure c(对齐与均匀性分析):基于对比学习的对齐(alignment,正样本对之间的期望距离,越低越好)和均匀性(uniformity,数据分布的均匀程度)指标评估。Concerto 实现了最佳的对齐性能,比对齐程度低 2-4 个数量级,表明其能够更一致地将相似细胞在超球面上拉近。
- Figure d(架构消融研究):对比了不同非对称架构配置(2 教师、2 学生、教师输出、学生输出等)。结果显示,教师网络作为输出(Teacher + student (teacher output))的配置在查询映射任务中表现最佳,平衡了语义丰富的表示学习和良好的泛化能力。
- Figure g(未见细胞类型投影):在 PBMC160k 上,作者从参考中移除了所有 CD8+ T 细胞,使用包含 CD8+ T 的样本作为查询。Concerto 在所有基因上运行获得了显著更高的 ACC(0.988 vs 0.772),并精确地将 CD8+ T 细胞定位在 NK 细胞和 CD4+ T 细胞之间。
- Figure 4e:通过计算 CD8a 蛋白、细胞毒性标记 GZMA 和初始/记忆标记 CCR7 的表达,验证了投影的生物学合理性。尽管 Concerto 从未见过 CD8+ T 细胞,但 CD8a 蛋白的富集区域与 Concerto 分配的查询 CD8+ T 细胞位置重叠。CD8 初始细胞显示出与 NK 细胞距离正相关的幼稚特征(CCR7),而增殖和效应细胞则显示出负相关的细胞毒性特征(GNLY, NKG7)。
- Figure f(缺失模态推断):使用 80% 的 PBMC160k 样本构建双模态参考,剩余 20% 仅使用 RNA 作为查询。Concerto 成功预测了查询细胞的蛋白质表达(如前 20 个预测与实测的皮尔逊相关系数 $r=0.966-0.998$)。图中展示了 CLEC12A、CD55、CD11c 和 CD14 的真实值与预测值的 UMAP 可视化,两者高度一致。
- Figure h(可扩展性分析):通过模拟数据评估时间消耗。在 8 个 NVIDIA Quadro RTX-6000 GPU 上分布式训练,Concerto 构建 100 万细胞参考需 585 秒(<10 分钟),构建 1,000 万细胞参考需 5,133 秒(<1.5 小时)。映射 100 万细胞查询需 168 秒(<3 分钟)。仅使用 CPU 时,构建 10 万细胞参考需 1.1 小时,查询同等数量细胞需 30 分钟。
- Figure i:与其他主流工具(Seurat v.3/v.4、Harmony、trVAE、scArches、Symphony)的示意图对比。Concerto 最具可扩展性,无需 PCA 或缩放,可在所有基因上运行,并支持多模态整合。

3.5 COVID-19 免疫分析
作者将 Schulte-Schrepping 等人的 COVID-19 PBMC 数据集($n=99,049$)映射到由 Ren 等人($n=451,096$)和 Zhu 等人($n=42,752$)构建的综合参考上,无需微调。
- Figure a(层次化映射策略):示意图展示了层次化映射流程。首先将所有查询细胞映射到参考顶层获得粗粒度(一级)注释,然后将分组的查询细胞投影到参考子群以获得细粒度(二级)注释。
- Figure b(CD8 T 细胞分析):UMAP 显示注释的 CD8 T 细胞可分为五种亚型:初始(naive)、增殖(proliferating)、TCM、TEM 和耗竭(exhausted)。不同疾病状态(健康对照 HC、中度 M、重度 S)显示出不同的组成。
- Figure c:热图显示了各亚型的典型标记基因表达模式(初始:TCF7, LEF1, CCR7;细胞毒性:PRF1, GZMB;耗竭:LAG3, HAVCR2 等)。
- Figure d:箱线图显示 CD8 初始 T 细胞在患者中的相对比例显著下降;CD8 TEM 在重度患者中比例增加;CD8 耗竭 T 细胞在重度患者中显著增加。
- Figure e:UMAP 识别出增殖-耗竭 CD8 T 细胞(proliferative-exhausted)表型,共表达耗竭转录本(LAG3)、增殖标记(MKI67)和细胞毒性特征(GZMA),且不完全丧失初始特征(TCF7)。
- Figure f(CD4 T 细胞分析):左图显示 CD4 初始 T 细胞在 COVID-19 患者中比例显著下降。右图显示活化 CD4 T 细胞中 CD2AP 表达升高,提示感染后发生显著状态转变。CD2AP 调节滤泡辅助 T 细胞分化,可能导致抗体应答改善。调节性 T 细胞(Treg)在患者中的比例也有所增加。
- Figure g(NK 细胞与单核细胞分析):Concerto 识别出 CD56dimCD16bright NK 细胞亚群在重度患者中显著活化,上调细胞毒性(PRF1, GZMB)和耗竭标记(HAVCR2)。
- Figure h:UMAP 清晰分离了健康、中度和重度样本。非经典单核细胞(CD14lowCD16high)在健康样本中富集,在重度样本中耗竭。对于经典单核细胞(CD14highCD16low),Concerto 识别出 HLA-DRlow S100Ahigh CD14+ 亚型在重度患者中富集,重现了其抗原呈递缺陷的炎症表型。
