sciCAN:通过循环一致性对抗网络实现单细胞染色质可及性与基因表达数据集成.
0. TL; DR
sciCAN以无监督的方式整合单细胞染色质可及性(scATAC-seq)和基因表达(scRNA-seq)数据。核心思想是使用循环一致性生成对抗网络来学习一个能够对齐scRNA-seq和scATAC-seq数据的联合表征,通过一个统一的编码器和多个判别器协同优化三种损失函数:
- 噪声对比估计损失 (NCE Loss): 借鉴对比学习的思想,用于学习每个模态内部的可区分表征。
- 对抗性域适应损失 (Adversarial Domain Adaptation Loss): 用于欺骗一个判别器,使其无法区分一个潜在嵌入是来自RNA还是ATAC,从而在分布层面将两个模态对齐。
- 循环一致性损失 (Cycle-consistent Loss): 确保从一个模态到另一个模态的翻译再翻译回来之后,潜在表征能够保持一致,从而建立起两个模态间有意义的、可逆的连接。
在5个scATAC-seq/scRNA-seq数据集结果表明,sciCAN在数据整合方面表现出了一致的性能,并且相比其他方法,在RNA到ATAC和ATAC到RNA的双向标签迁移中,实现了更好的平衡。
1. 背景介绍
单细胞技术的发展,使得我们能够从基因表达(scRNA-seq)和染色质可及性(scATAC-seq)等多个维度来审视细胞。整合这两种模态的数据,对于全面理解细胞状态和基因调控网络至关重要。
然而,尽管同时测量两种模态的联合分析(joint-profiling)技术已经出现,但由于各种原因(如实验成本、技术灵敏度等),我们手中拥有的大部分数据仍然是非配对(non-joint profiled)的,即scRNA-seq和scATAC-seq数据来自不同的细胞,我们并不知道它们之间的一一对应关系。
这就给数据整合带来了巨大的挑战。现有的方法大多是为整合多个scRNA-seq数据集而设计的,它们在处理跨模态整合时,往往会遇到以下问题:
- 特征不匹配: scRNA-seq的特征是基因,而scATAC-seq的特征是peaks。为了对齐它们,通常需要将ATAC-seq数据转换为基因活性矩阵,但这不可避免地会丢失信息。
- 线性假设的局限:像Seurat中使用的CCA等方法,其线性假设难以捕捉不同模态间复杂的非线性关系。
- 对细胞锚点的依赖:像SMILE等方法,需要已知的细胞配对信息(cell anchors)作为锚点来进行整合,这限制了其在非配对场景下的应用。
- 生成模型的挑战:基于VAE的深度生成模型虽然强大,但如何设计一个能够有效去除模态差异,同时保留生物学信息的模型,仍然是一个开放性问题。
近年来,生成对抗网络(Generative Adversarial Network, GAN)在图像翻译领域取得了巨大成功,特别是循环一致性对抗网络(Cycle-consistent Adversarial Network),它能够在非配对的图像集之间,学习到高质量的风格转换。
受此启发,作者提出了sciCAN。它旨在将循环一致性对抗网络的思想,从图像领域迁移到单细胞领域,以一种无监督的方式,解决非配对的scRNA-seq和scATAC-seq数据整合的难题。
2. sciCAN 方法
sciCAN的核心思想是利用一个循环一致性对抗网络,来学习一个能够对齐scRNA-seq和scATAC-seq数据的共享潜在空间。其架构包含两个主要组成部分:表征学习(representation learning)和模态对齐(modality alignment)。

2.1 表征学习:基于对比学习的编码器
sciCAN的第一个组成部分是一个共享的编码器 $E$,它负责学习每个模态内部的可区分表征。
scRNA-seq和scATAC-seq(经过预处理,转换为基因活性矩阵)数据共享同一个编码器 $E$。$E$由多个全连接层构成,将输入数据投影到一个128维的潜在空间 $z$。
为了让编码器 $E$ 学习到有意义的表征,作者借鉴了对比学习的思想,使用NCE作为损失函数。对于每个模态的数据,采用自配对策略,即每个细胞与其自身的噪声增强版构成正样本对,而batch内的其他细胞则为负样本。通过最小化NCE损失,模型被激励去学习一个能够将同类细胞拉近、异类细胞推开的嵌入空间。
2.2 模态对齐:对抗与循环的双重约束
sciCAN通过一个对抗性域适应模块和一个循环一致性模块,来实现两个模态在潜在空间中的精准对齐。
2.2.1 对抗性域适应 (Adversarial Domain Adaptation)
引入一个判别器 $D_{rna}$,它的任务是区分一个潜在嵌入 $z$ 是来自RNA模态还是ATAC模态。在训练过程中,判别器 $D_{rna}$ 努力提高其区分能力,而编码器 $E$ 则努力生成让判别器无法区分的、模态不可知的嵌入。通过这种猫鼠游戏,两个模态的潜在表征在分布层面被强行对齐。
2.2.2 循环一致性对抗网络 (Cycle-consistent Adversarial Network)
单纯的分布对齐是不够的,作者还需要建立两个模态之间的双向映射关系。为此,sciCAN引入了一个循环一致性的模块,其结构类似于著名的CycleGAN。
生成器 $G$ 是一个解码器结构的网络。它的任务是接收一个来自RNA模态的潜在嵌入 $z_{rna}$,并生成出与之对应的ATAC模态数据\(\hat{x}_{atac}\)。判别器 $D_{atac}$ 的任务是区分一个ATAC数据是真实的,还是由生成器 $G$ 生成的。
从RNA数据出发,经过编码 -> 生成ATAC数据 -> 再编码的循环后,得到的最终潜在嵌入,应该与原始的RNA潜在嵌入保持一致。作者通过一个循环一致性损失来惩罚这种循环前后的差异。这个损失确保了从RNA到ATAC的翻译过程是有意义且可逆的。
2.3 统一训练框架
sciCAN的最终总损失函数是NCE损失、对抗性域适应损失和循环一致性相关损失的加权和。通过一个统一的、端到端的训练过程,模型同时学习了如何在每个模态内部进行表征学习,以及如何在不同模态之间进行对齐和转换。
训练完成后,作者就可以使用共享的编码器 $E$,将任意scRNA-seq或scATAC-seq数据投影到联合表征空间中,用于各种下游分析。
3. 实验分析
作者在一系列真实数据集上,对sciCAN的性能进行了全面的评估,并与LIGER, Harmony, Seurat, ArchR和SMILE等五种SOTA方法进行了比较。
3.1 实验一:基准测试
作者在五个来自不同物种、不同组织(混合细胞系、人类造血、人类肺、小鼠皮肤、小鼠肾脏)的scRNA-seq/scATAC-seq数据集上进行了基准测试。
- 图a (整合质量): 作者通过模态轮廓系数(衡量模态混合度)和细胞类型轮廓系数(衡量生物学结构保留)来评估整合质量。结果显示,sciCAN在五个数据集中,始终能够在这两个相互制约的指标之间取得最佳的平衡。相比之下,其他方法或模态混合不佳(如LIGER),或在保留细胞类型结构上表现稍弱。
- 图b (标签迁移性能): 作者评估了从RNA到ATAC(RtoA)和从ATAC到RNA(AtoR)的双向标签迁移准确率。结果显示,sciCAN是唯一一个在两个方向上都表现出色的方法,展现了其学习到的双向映射的平衡性和对称性。而Seurat虽然在RtoA上表现优异,但在AtoR上表现较差,这可能与其单向的参考映射策略有关。
- 图c (综合排名): 在综合了整合质量和标签迁移性能的总体排名中,sciCAN在五个数据集中三次排名第一,展现了最稳定、最全面的卓越性能。

3.2 实验二:在10X Multiome数据上保留生物学层级
为了验证sciCAN学习到的整合表征是否具有生物学意义,作者将其应用于一个具有金标准细胞配对信息的10X Multiome PBMC数据集,并考察了其对造血层级(hematopoietic hierarchy)的保留情况。
- 图a (共轨迹分析): 作者使用PAGA工具,在sciCAN生成的联合嵌入上进行轨迹推断。结果清晰地展示了一个以造血干细胞(HSC)为中心,向髓系和淋巴系分化的经典造血层级结构。无论是在RNA空间还是ATAC空间中,这个层级结构都得到了很好的保留。
- 图b (Marker基因验证): 不同谱系的marker基因,在对应的RNA表达和ATAC基因活性上都表现出一致的特异性模式,进一步证实了整合的准确性。
- 活性-表达速度:作者还创新性地提出了活性-表达速度(activity-expression velocity)的概念,通过比较基因表达和基因活性的动态变化,来推断调控的方向。结果显示,推断出的速度场与已知的造血分化方向一致。

这个案例有力地证明,sciCAN学习到的联合表征,不仅在数学上对齐了数据,更在生物学上保留了细胞间重要的层级关系和动态过程。
3.3 实验三:在CRISPR扰动数据中发现共同响应
作者进一步挑战了一个更复杂的场景:整合两个独立的、分别在K562细胞中进行的CRISPR扰动实验,一个是Perturb-seq(RNA层面),另一个是Spear-ATAC(ATAC层面)。这两个实验使用了几乎完全不同的sgRNA集合。
- 图a (共聚类): 尽管两个实验的扰动目标不同,sciCAN仍然成功地将来自两个模态的细胞整合在一起,并识别出了三个共享的细胞簇(C0, C1, C2),暗示了这些簇可能代表了对不同扰动的某种共同生物学响应。
- 图b, c (跨模态特征一致性): 作者发现,在每个共聚类簇中,细胞的RNA表达谱和ATAC基因活性谱之间存在着强烈的正相关,并且它们共享相似的基因特征。
- 图d (扰动目标富集): 有趣的是,作者发现,对于三个共享的扰动目标(sgELF1, sgYY1, sgGABPA),被它们靶向的RNA-seq细胞主要富集在C1簇中,而ATAC-seq细胞则在三个簇中均匀分布。这揭示了在转录组和染色质层面,细胞对相同扰动的响应可能存在异质性。
- 图e, f (揭示亚群差异): 通过对C1簇中的共享靶点细胞进行深入分析,以及对C0和C2簇之间的差异基因活性进行研究,作者成功地解释了不同簇形成的分子基础,并识别出了响应不同但导致相似表型的细胞亚群。

这个案例充分展示了sciCAN作为一个强大的探索性工具,能够整合看似无关的扰动实验,并从中发现隐藏的、跨模态的共同生物学响应模式。