sciCAN:通过循环一致性对抗网络实现单细胞染色质可及性与基因表达数据集成.

0. TL; DR

sciCAN无监督的方式整合单细胞染色质可及性(scATAC-seq)和基因表达(scRNA-seq)数据。核心思想是使用循环一致性生成对抗网络来学习一个能够对齐scRNA-seqscATAC-seq数据的联合表征,通过一个统一的编码器和多个判别器协同优化三种损失函数:

  1. 噪声对比估计损失 (NCE Loss): 借鉴对比学习的思想,用于学习每个模态内部的可区分表征。
  2. 对抗性域适应损失 (Adversarial Domain Adaptation Loss): 用于欺骗一个判别器,使其无法区分一个潜在嵌入是来自RNA还是ATAC,从而在分布层面将两个模态对齐。
  3. 循环一致性损失 (Cycle-consistent Loss): 确保从一个模态到另一个模态的翻译再翻译回来之后,潜在表征能够保持一致,从而建立起两个模态间有意义的、可逆的连接。

在5个scATAC-seq/scRNA-seq数据集结果表明,sciCAN在数据整合方面表现出了一致的性能,并且相比其他方法,在RNA到ATACATAC到RNA的双向标签迁移中,实现了更好的平衡。

1. 背景介绍

单细胞技术的发展,使得我们能够从基因表达(scRNA-seq)和染色质可及性(scATAC-seq)等多个维度来审视细胞。整合这两种模态的数据,对于全面理解细胞状态和基因调控网络至关重要。

然而,尽管同时测量两种模态的联合分析(joint-profiling)技术已经出现,但由于各种原因(如实验成本、技术灵敏度等),我们手中拥有的大部分数据仍然是非配对(non-joint profiled)的,即scRNA-seqscATAC-seq数据来自不同的细胞,我们并不知道它们之间的一一对应关系。

这就给数据整合带来了巨大的挑战。现有的方法大多是为整合多个scRNA-seq数据集而设计的,它们在处理跨模态整合时,往往会遇到以下问题:

近年来,生成对抗网络(Generative Adversarial Network, GAN)在图像翻译领域取得了巨大成功,特别是循环一致性对抗网络(Cycle-consistent Adversarial Network),它能够在非配对的图像集之间,学习到高质量的风格转换。

受此启发,作者提出了sciCAN。它旨在将循环一致性对抗网络的思想,从图像领域迁移到单细胞领域,以一种无监督的方式,解决非配对的scRNA-seqscATAC-seq数据整合的难题。

2. sciCAN 方法

sciCAN的核心思想是利用一个循环一致性对抗网络,来学习一个能够对齐scRNA-seqscATAC-seq数据的共享潜在空间。其架构包含两个主要组成部分:表征学习(representation learning)模态对齐(modality alignment)

2.1 表征学习:基于对比学习的编码器

sciCAN的第一个组成部分是一个共享的编码器 $E$,它负责学习每个模态内部的可区分表征。

scRNA-seqscATAC-seq(经过预处理,转换为基因活性矩阵)数据共享同一个编码器 $E$。$E$由多个全连接层构成,将输入数据投影到一个128维的潜在空间 $z$。

为了让编码器 $E$ 学习到有意义的表征,作者借鉴了对比学习的思想,使用NCE作为损失函数。对于每个模态的数据,采用自配对策略,即每个细胞与其自身的噪声增强版构成正样本对,而batch内的其他细胞则为负样本。通过最小化NCE损失,模型被激励去学习一个能够将同类细胞拉近、异类细胞推开的嵌入空间。

2.2 模态对齐:对抗与循环的双重约束

sciCAN通过一个对抗性域适应模块和一个循环一致性模块,来实现两个模态在潜在空间中的精准对齐。

2.2.1 对抗性域适应 (Adversarial Domain Adaptation)

引入一个判别器 $D_{rna}$,它的任务是区分一个潜在嵌入 $z$ 是来自RNA模态还是ATAC模态。在训练过程中,判别器 $D_{rna}$ 努力提高其区分能力,而编码器 $E$ 则努力生成让判别器无法区分的、模态不可知的嵌入。通过这种猫鼠游戏,两个模态的潜在表征在分布层面被强行对齐。

2.2.2 循环一致性对抗网络 (Cycle-consistent Adversarial Network)

单纯的分布对齐是不够的,作者还需要建立两个模态之间的双向映射关系。为此,sciCAN引入了一个循环一致性的模块,其结构类似于著名的CycleGAN

生成器 $G$ 是一个解码器结构的网络。它的任务是接收一个来自RNA模态的潜在嵌入 $z_{rna}$,并生成出与之对应的ATAC模态数据\(\hat{x}_{atac}\)。判别器 $D_{atac}$ 的任务是区分一个ATAC数据是真实的,还是由生成器 $G$ 生成的。

RNA数据出发,经过编码 -> 生成ATAC数据 -> 再编码的循环后,得到的最终潜在嵌入,应该与原始的RNA潜在嵌入保持一致。作者通过一个循环一致性损失来惩罚这种循环前后的差异。这个损失确保了从RNAATAC的翻译过程是有意义且可逆的。

2.3 统一训练框架

sciCAN的最终总损失函数是NCE损失、对抗性域适应损失和循环一致性相关损失的加权和。通过一个统一的、端到端的训练过程,模型同时学习了如何在每个模态内部进行表征学习,以及如何在不同模态之间进行对齐和转换。

训练完成后,作者就可以使用共享的编码器 $E$,将任意scRNA-seqscATAC-seq数据投影到联合表征空间中,用于各种下游分析。

3. 实验分析

作者在一系列真实数据集上,对sciCAN的性能进行了全面的评估,并与LIGER, Harmony, Seurat, ArchRSMILE等五种SOTA方法进行了比较。

3.1 实验一:基准测试

作者在五个来自不同物种、不同组织(混合细胞系、人类造血、人类肺、小鼠皮肤、小鼠肾脏)的scRNA-seq/scATAC-seq数据集上进行了基准测试。

3.2 实验二:在10X Multiome数据上保留生物学层级

为了验证sciCAN学习到的整合表征是否具有生物学意义,作者将其应用于一个具有金标准细胞配对信息的10X Multiome PBMC数据集,并考察了其对造血层级(hematopoietic hierarchy)的保留情况。

这个案例有力地证明,sciCAN学习到的联合表征,不仅在数学上对齐了数据,更在生物学上保留了细胞间重要的层级关系和动态过程。

3.3 实验三:在CRISPR扰动数据中发现共同响应

作者进一步挑战了一个更复杂的场景:整合两个独立的、分别在K562细胞中进行的CRISPR扰动实验,一个是Perturb-seqRNA层面),另一个是Spear-ATACATAC层面)。这两个实验使用了几乎完全不同的sgRNA集合。

这个案例充分展示了sciCAN作为一个强大的探索性工具,能够整合看似无关的扰动实验,并从中发现隐藏的、跨模态的共同生物学响应模式。