scCross:一种用于将单细胞多组学与无缝整合、跨模态生成和计算机模拟探索相结合的深度生成模型.
0. TL; DR
scCross 是一个利用变分自编码器、生成对抗网络和互近邻技术进行模态对齐的工具,核心是一个VAE-GAN混合生成模型。VAE负责学习每个模态的低维细胞嵌入,而GAN中的判别器则用于对齐不同模态的嵌入分布,并保证生成数据的真实性。为了实现精准的跨模态对齐,scCross使用互近邻细胞对作为锚点,在训练过程中引导不同模态的潜在空间对齐。
scCross不仅是一个整合工具,它还具备三大独特且强大的功能:
- 跨模态数据生成:能够利用一个模态的数据,生成另一个缺失模态的数据,有效解决了数据稀缺性问题。
- 多组学数据模拟:能够生成高质量的、匹配的多组学模拟数据集,为算法基准测试提供了宝贵的金标准。
- 计算机模拟扰动探索:支持在模态内或跨模态进行计算机模拟扰动,模拟基因敲除或过表达等实验,为探索潜在的细胞状态干预策略提供了可能。
1. 背景介绍
单细胞测序技术的发展,特别是多组学技术的出现,为我们打开了一扇观察细胞内部复杂世界的窗户。尽管涌现出许多整合工具,如Seurat, Harmony, scglue, uniPort等,但它们大多存在以下局限:
- 对配对数据的依赖:许多高性能的方法需要配对数据(即不同模态来自同一个细胞)进行训练,但这在实际中难以大规模获取。
- 对预注释标签的依赖:一些半监督方法,如scJoint,需要预先注释好的细胞类型标签,这限制了它们在探索性研究中的应用。
- 信息损失与噪声敏感性:现有的整合方法在处理不同模态的异质性时,或多或少会存在信息损失或对噪声敏感的问题。
更重要的是,领域内存在一个更为根本的挑战:数据稀缺性。通常拥有大量的scRNA-seq数据,但对于其他模态(如表观遗传学数据),可用的数据量却非常有限。我们能否不仅仅是整合已有的数据,而是利用已有的数据去生成那些缺失的数据?我们能否在计算机中模拟细胞扰动,来预测其在多组学层面的响应?
scCross旨在通过一个强大的深度生成模型,将数据整合、跨模态生成、多组学模拟和计算机内扰动这四大核心功能,统一到一个框架之内。
2. scCross 方法详解
scCross的核心是一个基于VAE-GAN的深度生成框架,它通过MNN锚点引导,实现了精准的跨模态对齐和信息生成。

2.1 VAE-GAN混合模型
scCross为每个待整合的模态都构建了一个独立的VAE,并用一个共享的GAN框架来协调和对齐它们。
对于每种模态的数据 $x_k$,作者使用一个独立的VAE编码器将其投影到一个低维的潜在空间,得到嵌入向量 $z_k$。为了引入生物学先验知识,scCross在编码器的输入层,除了原始的表达/活性矩阵外,还额外整合了一个基于GO和通路数据库构建的基因集得分向量(gene set score vectors)。编码器网络采用了图卷积网络(GCN),以更好地捕捉细胞间的邻近关系。
相应的解码器则负责从 $z_k$ 中重构出原始数据 $x_k$。scCross为scRNA-seq和scATAC-seq等计数数据定制了负二项(NB)分布作为生成模型。
scCross引入了一组成对的对齐器,它们也是基于VAE的神经网络。对齐器编码器 $MLP_{al_enk}$ 负责将单个模态的潜变量 $z_k$ 进一步编码到一个共享的联合潜在空间,得到联合嵌入 $z$。对齐器解码器 $MLP_{al_dek}$ 负责将联合嵌入 $z$ 翻译回任意一个模态的特定潜变量 $z_k$。
为了确保不同模态在联合潜在空间中被完美对齐,作者引入了GAN机制。一个判别器 $D_z$ 被训练来区分一个联合嵌入 $z$ 是源自哪种原始模态。在训练中,对齐器编码器努力生成让判别器无法区分的嵌入,从而实现分布的对齐。
2.2 MNN锚点引导的精准对齐
仅仅对齐潜在空间的分布是不够的,作者还需要确保单个细胞能够在不同模态间被正确匹配。为此,scCross巧妙地利用了互近邻(MNN)技术。
作者首先在预处理后的数据上(基于共同基因的表达谱)计算出MNN细胞对。这些MNN对被视为高置信度的锚点。在训练过程中,作者引入一个额外的损失项,来最小化这些MNN锚点对在联合潜在空间中的余弦距离。
\[L_{MNN} = \sum_{h \ne j}^K \| (\mathbf{z'}_h \cdot {\mathbf{z'}_j}^T) - \beta_G (G_h \cdot G_j^T) \|^2\]这个损失项就像一个导航信标,引导着对齐器的学习,确保具有相似生物学状态的细胞在联合空间中被拉近。
2.3 统一的训练框架
scCross的训练过程分为两个阶段:
- 第一阶段:独立地训练每个模态的VAE,以学习到高质量的、模态特异性的细胞嵌入 $z_k$。
- 第二阶段:在预训练好的VAE基础上,联合训练对齐器和判别器,通过一个包含了VAE重构损失、GAN对抗损失和MNN对齐损失的统一目标函数,进行端到端的优化。
2.4 scCross的四大核心功能
基于这个统一的框架,scCross实现了四大核心功能:
- 数据整合:将不同模态的数据投影到联合潜在空间 $z$ 中,用于聚类和可视化。
- 跨模态生成:将模态j的数据 $x_j$ 编码到 $z$,再通过模态h的解码器,即可生成模态h的数据 $x_{h_cross}$。
- 多组学模拟:在联合潜在空间 $z$ 中进行采样,再通过不同的解码器,即可生成匹配的、多组学模拟数据。
- 计算机内扰动:在输入数据或潜在空间中对特定基因/细胞进行扰动,再通过模型观察其在其他模态或下游分析中的变化。
3. 实验分析
作者在一系列真实数据集上,对scCross的各项功能进行了全面的评估。
3.1 实验一:单细胞多组学整合
作者在三个配对和一个非配对的scRNA/scATAC数据集上,比较了scCross与Seurat v4, scglue, uniPort等六种SOTA整合方法的性能。
在所有四个数据集上,scCross在细胞聚类性能(通过ARI, NMI和细胞类型ASW评估)和模态混合性能(通过组学ASW和图连通性评估)上,均取得了可比或更优的表现(图a)。
在细胞对齐准确性(通过FOSCTTM分数评估)上,scCross在所有三个测试数据集和不同下采样比例下,始终保持领先或并列领先(图b)。

scCross还能轻松地扩展到三种模态(scRNA-seq, scATAC-seq, snmC-seq)的整合任务中,其整合后的UMAP图清晰地显示了三种模态的良好混合,以及跨模态的细胞类型对齐。UpSet图也证实了其识别出的marker基因在三种模态间具有高度的一致性。

3.2 实验二:跨模态单细胞数据生成
作者测试了利用scATAC-seq数据生成scRNA-seq数据的能力。
(部分数据训练)作者仅使用20%的配对数据训练模型,然后为剩余80%的细胞,仅根据其scATAC-seq数据生成scRNA-seq数据。图a-e结果显示,生成的数据与真实数据在UMAP分布、细胞类型比例、marker基因表达、细胞间通讯网络和通路富集等多个层面都表现出极高的一致性(相关系数均在0.82以上)。
(独立数据集训练)作者在一个独立的、非配对的数据集上训练模型,然后用它为一个全新的、只有scATAC-seq数据的配对数据集生成scRNA-seq数据。图f-g结果再次显示出惊人的一致性。生成的数据与真实数据在UMAP分布和细胞类型比例上高度吻合(相关系数0.89)。

这些结果有力地证明,scCross能够进行高质量、高保真度的跨模态数据生成。
3.3 实验三:匹配的多组学数据模拟
作者展示了如何利用scCross对稀有细胞类型(如星形胶质细胞Ast)进行数据增强。通过模拟5倍于原始数量的细胞,可以更清晰地观察它们的分布(图a, b)。
模拟出的数据在GO富集分析和marker基因排序(RRHO图)上,都与真实数据高度一致,证明了模拟数据的生物学保真度(图c, d)。
作者进一步证明,这些高质量的模拟配对数据,可以作为金标准基准,用于评估其他整合方法的性能(图e, f)。

3.4 实验四:计算机内多组学扰动
作者在一个COVID-19的CITE-seq数据集上,展示了scCross进行计算机内扰动的能力。
模态内扰动 (图a-c):作者通过逐一敲低高变基因,观察其对COVID-19细胞和健康细胞在潜在空间中距离的影响。成功识别出了一系列与COVID-19病理高度相关的marker基因(如CCL3)和信号通路。还识别出了在COVID-19中响应最剧烈的细胞亚群——NK_56hi细胞。

跨模态扰动 (图d-f):作者在一个健康人的多组学数据上训练模型,然后将COVID-19病人的scRNA-seq数据输入,让模型生成出对应的、带有“疾病扰动”的蛋白质(ADT)数据。结果显示,这些跨模态扰动后生成的蛋白质谱,与真实的COVID-19病人的蛋白质谱高度相似(Wilcoxon检验p-value < 1.839e-51)。更重要的是,这种方法成功地识别出了像CLEC12A这样,仅通过传统的差异表达分析无法发现的、与COVID-19免疫响应相关的关键蛋白。

这个案例充分展示了scCross作为一个强大的探索性工具,在揭示疾病机制和发现潜在治疗靶点方面的巨大潜力。