scCLIP:多模态单细胞对比学习整合预训练.
0. TL; DR
scCLIP是一个基于 Transformer 和 对比学习 的单细胞多组学整合预训练框架,通过基因组 patching 策略将染色质开放区域(peaks)按基因组坐标排序并分块(patch),每一块作为一个token;通过对比学习联合训练scRNA-seq和scATAC-seq两个模态的Transformer编码器,学习一个统一的嵌入空间。
在大规模图谱数据集的基准测试中,scCLIP在跨模态细胞匹配任务上显著优于现有SOTA方法。scCLIP学习到的特征具有零样本迁移能力,即在一个数据集上训练好的模型,无需重新训练,可以直接用于分析一个全新的、未见过的数据集,并取得优异的对齐效果。
1. 背景介绍
单细胞测序技术,特别是scRNA-seq和scATAC-seq,已经成为揭示细胞异质性和功能的利器。前者告诉我们“哪些基因在表达”,后者则揭示了“哪些基因可能被表达”(通过染色质开放状态)。将两者结合,就能在单细胞层面建立从“表观调控”到“基因表达”的直接联系。
整合这两种模态的数据面临三大挑战:
- 维度诅咒与数据质量: scATAC-seq的特征维度极高(通常是几十万到上百万个peaks),数据极其稀疏,信噪比低,给建模带来了巨大困难。
- 模态间的不平衡: 许多方法(如WNN、totalVI)倾向于生成一个统一的细胞表征,但这往往会导致信息量更丰富的scRNA-seq数据“主导”最终的嵌入,削弱了scATAC-seq的贡献。
- 可扩展性与泛化性差: 现有的一些匹配方法(如CLUE、MatchCLOT)虽然在特定任务上表现不错,但通常难以扩展到百万细胞级别的图谱数据,并且模型不具备泛化能力,无法应用于新的、未见过的数据集。
基于Transformer的多模态模型CLIP通过对比学习,成功地将图像和文本两种完全不同的模态对齐到了一个共享的嵌入空间,展现了零样本学习能力。能否借鉴CLIP的思想,构建一个能够处理并对齐scRNA-seq和scATAC-seq数据的Transformer模型?
2. scCLIP 模型
scCLIP主要由两部分构成:为两个模态定制的 Tokenization(分词) 模块,以及基于对比学习的 Multi-modal Embedding Learning(多模态嵌入学习) 模块。

2.1 Tokenization
Transformer的输入是一系列的“token(词元)”。如何将一个包含数十万特征的细胞谱图向量转换成一个合理长度的token序列,是scCLIP的关键。
对于scATAC-seq:
- 特征排序:首先将所有的peaks(特征)按照它们在参考基因组上的物理坐标(染色体号和起止位置)进行排序。
- 分块(Patching): 将这个排好序的、超长的细胞特征向量 $x ∈ R^F$ (F可达百万) 切割成 $C$ 个连续的、不重叠的patch。每个patch的长度为 $P$,即 $F = C × P$。
- Token化: 每一块patch被视为一个token,它使得每个token都具有了明确的生物学意义:代表了一段连续基因组区域的染色质开放状态。
- 全局表征:在token序列的开头加入一个特殊的可学习token($[CLS]$),其在经过Transformer编码后的最终输出将作为整个细胞的全局表征。
- 位置编码:为了保留每个patch在基因组上的相对位置信息,为每个token加入了标准的一维位置编码。
对于scRNA-seq:采用类似的方法,将基因按其在基因组上的坐标排序后进行分块和token化。
通过基因组分块策略,成功地将一个难以处理的超高维向量,转换成了Transformer可以高效处理的、具有生物学意义的token序列。
2.2 多模态嵌入学习
有了两个模态的Transformer编码器(一个用于RNA,一个用于ATAC)后,目标是学习一个共享的嵌入空间,使得来自同一个细胞的RNA和ATAC能够在这个空间里“相认”。采用对比学习来实现这一目标。
假设在一个batch中有 $N$ 个配对的 (ATAC, RNA) 样本。正样本对 (Positive Pair)是来自同一个细胞的RNA嵌入和ATAC嵌入,整个batch中有 $N$ 对。负样本对 (Negative Pairs)是来自不同细胞的RNA和ATAC嵌入组合,整个batch中有 $N² - N$ 对。
目标是最大化 $N$ 个正样本对的余弦相似度,同时最小化 $N² - N$ 个负样本对的余弦相似度。这可以被构建成一个分类问题:对于一个RNA嵌入,需要在 $N$ 个ATAC嵌入中正确地把它分类到与之配对的那个。反之亦然。这个过程通过对称的交叉熵损失 (Cross-Entropy Loss) 来实现:
\[L = \frac{1}{2} \times (\text{CE}(f, y_{\text{ATAC}}) + \text{CE}(g, y_{\text{RNA}}))\]其中 $f$ 和 $g$ 分别是来自RNA和ATAC编码器的细胞嵌入向量。$y_{\text{ATAC}}$ 和 $y_{\text{RNA}}$ 是它们对应的正确配对标签。$\text{CE}(\cdot, \cdot)$ 是标准的交叉熵函数,它作用于一个 $N \times N$ 的相似度矩阵(矩阵的每个元素是RNA嵌入和ATAC嵌入的余弦相似度)。
通过最小化这个损失函数,scCLIP学习到一个能够区分正确配对和错误配对的共享嵌入空间,从而实现了两个模态的深度对齐。
3. 实验分析
作者通过一系列实验,展示了scCLIP在多个维度上的优越性。
3.1 实验一:大规模数据整合与对齐
作者在一个包含 37.7万个细胞 的伪配对人类胎儿图谱数据集Fetal Atlas上验证了scCLIP的可扩展性和整合能力。
UMAP可视化结果显示,scCLIP生成的联合嵌入空间中,不同模态得到了很好的混合,同时不同细胞类型(右图)又能被清晰地分离开。

在量化评估中,scCLIP取得了最高的 Silhouette score (0.486),表明其保留生物学差异(区分细胞类型)的能力最强。同时,其 Batch entropy mixing score (0.578) 与SOTA方法CLUE持平,表明其对齐不同模态的能力也十分优秀。

3.2 实验二:跨模态匹配
跨模态匹配是指给定一个细胞的RNA谱,在数万个ATAC谱中找到属于同一个细胞的那个。使用 Matching Score (越高越好) 和 FOSCTTM (越低越好) 两个核心指标进行评估。
结果显示,在不同抽样数量下,scCLIP的性能都超越了之前的SOTA方法CLUE和MatchCLOT,证明了scCLIP在单细胞级别精准匹配上的巨大优势。

3.3 实验三:零样本迁移学习
作者在一个老年痴呆症(AD)人脑数据集上训练scCLIP模型。然后不经过任何重新训练或微调,直接使用训练好的RNA和ATAC编码器,为一个完全不同的、来自10x Genomics官网的 human_brain_3k 数据集生成细胞嵌入。
训练所用的AD数据集本身实现了很好的整合,human_brain_3k不仅其自身的RNA和ATAC模态对齐得很好,而且其细胞嵌入与AD数据集中对应的细胞类型(如兴奋性神经元、抑制性神经元等)重叠在了一起。这证明了scCLIP学习到的不是特定于某个数据集特征,而是跨数据集通用的、与细胞身份相关的特征。
