整合大尺度图谱级单细胞数据的对抗域迁移网络.
- paper:Adversarial domain translation networks for integrating large-scale atlas-level single-cell datasets
0. TL; DR
Portal 是一个基于对抗域翻译网络(Adversarial Domain Translation Networks)的单细胞统一整合框架。Portal将不同来源的数据集视为不同的域(domain)核心是一个编码器-生成器-判别器的三元架构。它将一个域的细胞编码到一个共享的潜在空间,再由另一个域的生成器渲染出该域的风格,从而实现域之间的翻译。
借助于轻量级网络设计和GPU加速的mini-batch训练,Portal展现了惊人的计算效率,它能在几分钟内整合数百万细胞,而内存消耗几乎不随数据量增加而增长。Portal不仅能整合不同批次的scRNA-seq数据,还能轻松处理scRNA-seq与snRNA-seq的整合,甚至完成了跨物种(人、猴、鼠)的复杂发育轨迹对齐,充分证明了其强大的通用性和鲁棒性。
1. 背景介绍
单细胞生物学已经迈入了图谱时代。人类细胞图谱(HCA)、小鼠细胞图谱(Tabula Muris)等大型项目,为我们提供了数以百万计的细胞数据,覆盖了多种组织、发育阶段和物种。整合这些海量数据也给计算方法带来了前所未有的挑战:
- 可扩展性(Scalability):许多经典的整合方法,如基于MNN(互近邻)的Seurat和fastMNN,其算法复杂度会随着细胞数量的增加而急剧上升。在处理百万级别的细胞时,它们要么运行数小时甚至数天,要么直接因内存耗尽而崩溃。
- 精细结构保留(Preservation of Fine-grained Structures):图谱数据中包含了大量罕见的细胞亚群,它们之间的差异可能非常细微。传统的整合方法为了拉平不同数据集的差异(即批次效应),有时会用力过猛,将这些本应区分开的精细亚群错误地混合在一起,造成过度校正(overcorrection),丢失了宝贵的生物学异质性。
- 异构性(Heterogeneity):图谱数据来源极其多样,不仅有不同实验批次的技术差异,还可能来自不同的数据类型(如scRNA-seq vs. snRNA-seq),甚至不同的物种(如人 vs. 小鼠)。大多数为校正批次效应而设计的方法,其基本假设(如生物学差异远大于技术差异)在面对这种巨大的异构性时可能不再成立。
单细胞数据整合问题本质上也是一个域翻译(Domain Translation)问题。可以将来自不同实验、不同技术平台、不同物种的数据集,看作是处于不同风格的域。整合的目标就是学习一个模型,能够自由地将细胞从一个域翻译或传送(Portal)到另一个域,同时保持其核心的生物学身份不变。这正是 Portal 框架的核心思想。
2. Portal 模型
Portal是一个基于生成对抗网络(GAN)的域翻译框架,它通过编码器、生成器和判别器的协同作用,以及三大正则化项的约束,来实现高效而精准的数据对齐。

为简单起见,以整合两个域$X$和$Y$为例。Portal的架构包含三类关键组件。
- 编码器 $E_1: X \to Z$ 和 $E_2: Y \to Z$。每个域都有一个专属的编码器,其任务是剥离域特有的风格(如批次效应),提取出细胞纯粹的、共享的生物学状态,并将其编码到一个共享的潜在空间Z中。
- 生成器 $G_1: Z \to X$ 和 $G_2: Z \to Y$。每个域也有一个专属的生成器,其任务与编码器相反。它接收一个潜在空间中的生物学状态编码,并为其渲染上目标域的特有风格,从而生成该域的细胞表达谱。
- 判别器 $D_1: X \to (0,1)$ 和 $D_2: Y \to (0,1)$。每个域配备一个判别器,它负责判断一个细胞是真实数据还是从其他域翻译过来的数据。
判别器D的目标尽可能准确地分辨“真假细胞”,即最大化以下对抗损失函数:
\[L_X(D_1, E_2, G_1) = \mathbb{E}[\log D_1(x)] + \mathbb{E}[\log(1 - D_1(G_1(E_2(y))))]\]生成器G和编码器E的目标联合起来以假乱真,生成让判别器无法区分的细胞,即最小化上述损失。
Portal的判别器经过了特殊设计,对于那些判别器非常确定是真的(得分接近1)或非常确定是假的(得分接近0)的细胞,其梯度会变为0。这意味着,对抗学习将只集中在那些真假难辨、最可能属于共享细胞类型的细胞上。而那些域特有的细胞,由于很容易被判别器识别,它们的梯度为0,因此不会被强行对齐,其独特性得以保留。
为了确保对抗学习的准确性,Portal引入了三大正则化项来提供强有力的约束。
- 自编码器一致性 ($R_{AE}$): 这个正则项要求,一个细胞在自己的域里编码-解码后,应该还能变回自己。即,编码再解码后的细胞应与原始细胞尽可能相似。
- 潜在空间对齐一致性 ($R_{LA}$): 要求一个细胞在跨域变换后,其在潜在空间中的生物学状态应该保持不变。例如,一个X域的细胞 $x$,先被编码到潜在空间得到 $E_1(x)$,然后被翻译到Y域得到 $G_2(E_1(x))$,再被Y域的编码器 $E_2$ 编码回潜在空间,得到的 $E_2(G_2(E_1(x)))$ 应该与最初的 $E_1(x)$ 尽可能一致。
这个潜在空间对齐一致性损失强力地约束了编码器和生成器的行为,确保了跨域翻译的保真度。
- 余弦相似度保持 ($R_{cos}$): 批次效应等技术差异主要影响基因表达的尺度(scale),而不太影响细胞表达谱的方向(direction)。因此,一个细胞的原始向量和它被翻译后的向量,其余弦相似度应该保持很高。
这个正则项对于找到正确的细胞对应关系至关重要。
Portal通过一个带约束的优化问题,联合优化对抗损失和这三大正则化项,从而学习到一个既能完美混合共享细胞群,又能保留特有细胞群,还能确保细胞身份正确对应的和谐统一的潜在空间。
3. 实验分析
作者在多个大规模、高复杂度的真实数据集上,对Portal的性能进行了全面的基准测试。
3.1 实验一:速度与可扩展性
作者整合了两个总细胞数超过110万的小鼠大脑图谱数据集,并与Harmony, Seurat v3, online iNMF等主流方法进行了比较。
Portal的性能令人震惊。整合这110万细胞,Portal仅用时120秒(2分钟),而Harmony和online iNMF需要超过100分钟,Seurat更是需要8.5小时以上。在内存消耗方面,Portal几乎是常数级别的,仅占用约0.3GB,而其他方法则需要几十甚至上百GB。这得益于其轻量级网络设计和高效的mini-batch训练模式。
尽管速度极快,Portal的整合精度并未妥协。在保留精细细胞亚群方面(通过ARI和ASW指标衡量),Portal的性能与最精确的方法(如Seurat)相当,甚至在某些情况下更优。

3.2 实验二:精细结构保留
整合复杂组织(如大脑)时,最难的是保留那些数量稀少、但生物学意义重大的细胞亚群。作者深入研究了小鼠海马区的整合结果。
在一个包含三种转录谱上高度相似的罕见神经元亚群的区域,Portal是唯一能够将这三个亚群清晰地区分开的方法。其他所有方法都不同程度地将它们错误地混合在了一起。
这一结果表明,Portal强大的精细结构保留能力,使其能够被用于从异构数据集中发现和鉴定新的、罕见的细胞亚群。例如可以利用一个高深度的参考数据集,去标注另一个高通量数据集中原先无法识别的细胞类型。

3.3 实验三:处理异构数据
Portal的域翻译思想使其天然适合处理来源差异巨大的异构数据。
在整合覆盖了不同组织器官的Tabula Muris图谱时,Portal的智能判别器成功地识别并保护了那些只存在于某个数据集中的组织特有细胞类型(如大脑中的小胶质细胞),没有将它们与其他细胞错误混合,而其他方法则普遍存在这个问题。

最具挑战性的是,作者应用Portal整合了来自小鼠、猕猴和人类三个物种的精子发生过程的数据。尽管物种间差异巨大,共享基因有限,Portal依然成功地将这三个物种的连续分化轨迹对齐到了一个共享的空间中,并识别出了跨物种保守和特异的基因表达程序。这为利用模式生物研究人类疾病和发育提供了强大的计算工具。
