0. TL; DR

sciCAN以无监督的方式整合单细胞染色质可及性（scATAC-seq）和基因表达（scRNA-seq）数据。核心思想是使用循环一致性生成对抗网络来学习一个能够对齐scRNA-seq和scATAC-seq数据的联合表征，通过一个统一的编码器和多个判别器协同优化三种损失函数：

噪声对比估计损失 (NCE Loss): 借鉴对比学习的思想，用于学习每个模态内部的可区分表征。
对抗性域适应损失 (Adversarial Domain Adaptation Loss): 用于欺骗一个判别器，使其无法区分一个潜在嵌入是来自RNA还是ATAC，从而在分布层面将两个模态对齐。
循环一致性损失 (Cycle-consistent Loss): 确保从一个模态到另一个模态的翻译再翻译回来之后，潜在表征能够保持一致，从而建立起两个模态间有意义的、可逆的连接。

在5个scATAC-seq/scRNA-seq数据集结果表明，sciCAN在数据整合方面表现出了一致的性能，并且相比其他方法，在RNA到ATAC和ATAC到RNA的双向标签迁移中，实现了更好的平衡。

1. 背景介绍

单细胞技术的发展，使得我们能够从基因表达（scRNA-seq）和染色质可及性（scATAC-seq）等多个维度来审视细胞。整合这两种模态的数据，对于全面理解细胞状态和基因调控网络至关重要。

然而，尽管同时测量两种模态的联合分析（joint-profiling）技术已经出现，但由于各种原因（如实验成本、技术灵敏度等），我们手中拥有的大部分数据仍然是非配对（non-joint profiled）的，即scRNA-seq和scATAC-seq数据来自不同的细胞，我们并不知道它们之间的一一对应关系。

这就给数据整合带来了巨大的挑战。现有的方法大多是为整合多个scRNA-seq数据集而设计的，它们在处理跨模态整合时，往往会遇到以下问题：

特征不匹配： scRNA-seq的特征是基因，而scATAC-seq的特征是peaks。为了对齐它们，通常需要将ATAC-seq数据转换为基因活性矩阵，但这不可避免地会丢失信息。
线性假设的局限：像Seurat中使用的CCA等方法，其线性假设难以捕捉不同模态间复杂的非线性关系。
对细胞锚点的依赖：像SMILE等方法，需要已知的细胞配对信息（cell anchors）作为锚点来进行整合，这限制了其在非配对场景下的应用。
生成模型的挑战：基于VAE的深度生成模型虽然强大，但如何设计一个能够有效去除模态差异，同时保留生物学信息的模型，仍然是一个开放性问题。

近年来，生成对抗网络（Generative Adversarial Network, GAN）在图像翻译领域取得了巨大成功，特别是循环一致性对抗网络（Cycle-consistent Adversarial Network），它能够在非配对的图像集之间，学习到高质量的风格转换。

受此启发，作者提出了sciCAN。它旨在将循环一致性对抗网络的思想，从图像领域迁移到单细胞领域，以一种无监督的方式，解决非配对的scRNA-seq和scATAC-seq数据整合的难题。

2. sciCAN 方法

sciCAN的核心思想是利用一个循环一致性对抗网络，来学习一个能够对齐scRNA-seq和scATAC-seq数据的共享潜在空间。其架构包含两个主要组成部分：表征学习（representation learning）和模态对齐（modality alignment）。

2.1 表征学习：基于对比学习的编码器

sciCAN的第一个组成部分是一个共享的编码器 $E$，它负责学习每个模态内部的可区分表征。

scRNA-seq和scATAC-seq（经过预处理，转换为基因活性矩阵）数据共享同一个编码器 $E$。$E$由多个全连接层构成，将输入数据投影到一个128维的潜在空间 $z$。

为了让编码器 $E$ 学习到有意义的表征，作者借鉴了对比学习的思想，使用NCE作为损失函数。对于每个模态的数据，采用自配对策略，即每个细胞与其自身的噪声增强版构成正样本对，而batch内的其他细胞则为负样本。通过最小化NCE损失，模型被激励去学习一个能够将同类细胞拉近、异类细胞推开的嵌入空间。

2.2 模态对齐：对抗与循环的双重约束

sciCAN通过一个对抗性域适应模块和一个循环一致性模块，来实现两个模态在潜在空间中的精准对齐。

2.2.1 对抗性域适应 (Adversarial Domain Adaptation)

引入一个判别器 $D_{rna}$，它的任务是区分一个潜在嵌入 $z$ 是来自RNA模态还是ATAC模态。在训练过程中，判别器 $D_{rna}$ 努力提高其区分能力，而编码器 $E$ 则努力生成让判别器无法区分的、模态不可知的嵌入。通过这种猫鼠游戏，两个模态的潜在表征在分布层面被强行对齐。

2.2.2 循环一致性对抗网络 (Cycle-consistent Adversarial Network)

单纯的分布对齐是不够的，作者还需要建立两个模态之间的双向映射关系。为此，sciCAN引入了一个循环一致性的模块，其结构类似于著名的CycleGAN。

生成器 $G$ 是一个解码器结构的网络。它的任务是接收一个来自RNA模态的潜在嵌入 $z_{rna}$，并生成出与之对应的ATAC模态数据$\hat{x}_{atac}$。判别器 $D_{atac}$ 的任务是区分一个ATAC数据是真实的，还是由生成器 $G$ 生成的。

从RNA数据出发，经过编码 -> 生成ATAC数据 -> 再编码的循环后，得到的最终潜在嵌入，应该与原始的RNA潜在嵌入保持一致。作者通过一个循环一致性损失来惩罚这种循环前后的差异。这个损失确保了从RNA到ATAC的翻译过程是有意义且可逆的。

2.3 统一训练框架

sciCAN的最终总损失函数是NCE损失、对抗性域适应损失和循环一致性相关损失的加权和。通过一个统一的、端到端的训练过程，模型同时学习了如何在每个模态内部进行表征学习，以及如何在不同模态之间进行对齐和转换。

训练完成后，作者就可以使用共享的编码器 $E$，将任意scRNA-seq或scATAC-seq数据投影到联合表征空间中，用于各种下游分析。

3. 实验分析

作者在一系列真实数据集上，对sciCAN的性能进行了全面的评估，并与LIGER, Harmony, Seurat, ArchR和SMILE等五种SOTA方法进行了比较。

3.1 实验一：基准测试

作者在五个来自不同物种、不同组织（混合细胞系、人类造血、人类肺、小鼠皮肤、小鼠肾脏）的scRNA-seq/scATAC-seq数据集上进行了基准测试。

图a (整合质量): 作者通过模态轮廓系数（衡量模态混合度）和细胞类型轮廓系数（衡量生物学结构保留）来评估整合质量。结果显示，sciCAN在五个数据集中，始终能够在这两个相互制约的指标之间取得最佳的平衡。相比之下，其他方法或模态混合不佳（如LIGER），或在保留细胞类型结构上表现稍弱。
图b (标签迁移性能): 作者评估了从RNA到ATAC（RtoA）和从ATAC到RNA（AtoR）的双向标签迁移准确率。结果显示，sciCAN是唯一一个在两个方向上都表现出色的方法，展现了其学习到的双向映射的平衡性和对称性。而Seurat虽然在RtoA上表现优异，但在AtoR上表现较差，这可能与其单向的参考映射策略有关。
图c (综合排名): 在综合了整合质量和标签迁移性能的总体排名中，sciCAN在五个数据集中三次排名第一，展现了最稳定、最全面的卓越性能。

3.2 实验二：在10X Multiome数据上保留生物学层级

为了验证sciCAN学习到的整合表征是否具有生物学意义，作者将其应用于一个具有金标准细胞配对信息的10X Multiome PBMC数据集，并考察了其对造血层级（hematopoietic hierarchy）的保留情况。

图a (共轨迹分析): 作者使用PAGA工具，在sciCAN生成的联合嵌入上进行轨迹推断。结果清晰地展示了一个以造血干细胞（HSC）为中心，向髓系和淋巴系分化的经典造血层级结构。无论是在RNA空间还是ATAC空间中，这个层级结构都得到了很好的保留。
图b (Marker基因验证): 不同谱系的marker基因，在对应的RNA表达和ATAC基因活性上都表现出一致的特异性模式，进一步证实了整合的准确性。
活性-表达速度：作者还创新性地提出了活性-表达速度（activity-expression velocity）的概念，通过比较基因表达和基因活性的动态变化，来推断调控的方向。结果显示，推断出的速度场与已知的造血分化方向一致。

这个案例有力地证明，sciCAN学习到的联合表征，不仅在数学上对齐了数据，更在生物学上保留了细胞间重要的层级关系和动态过程。

3.3 实验三：在CRISPR扰动数据中发现共同响应

作者进一步挑战了一个更复杂的场景：整合两个独立的、分别在K562细胞中进行的CRISPR扰动实验，一个是Perturb-seq（RNA层面），另一个是Spear-ATAC（ATAC层面）。这两个实验使用了几乎完全不同的sgRNA集合。

图a (共聚类): 尽管两个实验的扰动目标不同，sciCAN仍然成功地将来自两个模态的细胞整合在一起，并识别出了三个共享的细胞簇（C0, C1, C2），暗示了这些簇可能代表了对不同扰动的某种共同生物学响应。
图b, c (跨模态特征一致性): 作者发现，在每个共聚类簇中，细胞的RNA表达谱和ATAC基因活性谱之间存在着强烈的正相关，并且它们共享相似的基因特征。
图d (扰动目标富集): 有趣的是，作者发现，对于三个共享的扰动目标（sgELF1, sgYY1, sgGABPA），被它们靶向的RNA-seq细胞主要富集在C1簇中，而ATAC-seq细胞则在三个簇中均匀分布。这揭示了在转录组和染色质层面，细胞对相同扰动的响应可能存在异质性。
图e, f (揭示亚群差异): 通过对C1簇中的共享靶点细胞进行深入分析，以及对C0和C2簇之间的差异基因活性进行研究，作者成功地解释了不同簇形成的分子基础，并识别出了响应不同但导致相似表型的细胞亚群。

这个案例充分展示了sciCAN作为一个强大的探索性工具，能够整合看似无关的扰动实验，并从中发现隐藏的、跨模态的共同生物学响应模式。