scDREAMER使用深度生成模型和对抗分类器的图谱级单细胞数据集成.

0. TL; DR

scDREAMER是一个基于深度生成模型和对抗性训练的数据整合框架,采用两级对抗训练策略:

  1. 第一级对抗(批次分类器 vs. 编码器):训练一个批次分类器来识别细胞嵌入的来源批次,同时训练编码器生成批次不可知的嵌入来欺骗分类器。
  2. 第二级对抗(判别器 vs. 自编码器):训练一个判别器来区分真实的表达谱和由解码器重构的表达谱。这迫使自编码器学习生成更逼近真实数据分布的、高质量的校正后表达谱。

在六个具有挑战性的真实基准数据集上,scDREAMER在批次校正和生物学变异保留两个方面均一致性地优于各自领域的SOTA方法。在一个包含100万细胞的数据集上验证了scDREAMER的强大可扩展性。

1. 背景介绍

单细胞测序技术的发展为绘制生命图谱提供了前所未有的工具。从人类细胞图谱到各类器官发育和疾病研究,已经积累了海量的、来自不同实验室、不同组织、不同时间点和不同实验条件的单细胞数据集。将这些异构的数据整合起来,将极大地加速对复杂生物系统的理解。

然而,数据整合既要去除批次效应(batch effects):由测序方案、文库制备、样本来源等技术因素引入的系统性偏差;又要保留生物学变异(biological variation):由细胞类型、状态、发育轨迹等内在因素决定的差异。

现有的整合方法,可以大致分为两大类,但它们都面临着在上述“平衡”中的挑战:

  1. 无监督方法:
    • 基于MNN的方法 (如Seurat, Scanorama): 通过寻找不同批次间的互近邻细胞对来进行校正。这类方法在处理大规模数据集时,内存和时间开销巨大,并且当细胞类型比例不均衡时,找到的MNN对质量不高,可能导致整合失败。
    • 基于深度学习的方法 (如scVI, iMAP): 利用变分自编码器(VAE)或生成对抗网络(GAN)来学习批次无关的细胞表征。然而,传统的VAE模型在重构批次校正后的表达谱时保真度较低,而基于GAN的方法则可能因为训练不稳定或依赖低质量的MNN锚点而导致次优结果。
  2. 有监督方法:
    • 这类方法利用已知的细胞类型标签来指导整合过程。虽然精度较高,但它们的应用场景受限,因为在探索性研究中,我们往往没有完整的细胞类型注释,甚至我们的目标就是发现新的细胞类型。

因此需要一个能够同时在批次校正和生物学保留两个方面都取得卓越性能的新框架。这个框架还需具备强大的可扩展性和灵活性,以应对图谱时代日益增长的数据规模和复杂性。

2. scDREAMER 方法

scDREAMER的核心是一个双重对抗学习框架,它通过两级“对抗博弈”,协同地实现批次校正和数据生成。该框架包含无监督的scDREAMER和有监督的scDREAMER-Sup两个版本。

2.1 无监督模型 (scDREAMER)

scDREAMER由一个对抗性变分自编码器(Adversarial VAE)和一个批次分类器(Batch Classifier)组成。

对抗性变分自编码器 (Adversarial VAE)

这个组件负责学习细胞的低维表示并重构高质量的表达谱。它由三个神经网络构成:

  1. 编码器 (Encoder, E): 将一个细胞的高维表达谱$x$和其批次信息$s$,编码为一个低维的潜在嵌入$z$。假设$z$服从标准正态分布先验。
  2. 解码器 (Decoder, D): 从潜在嵌入$z$和批次信息$s$中,重构出细胞的表达谱 $\tilde{x}$。使用ZINB(零膨胀负二项)或NB分布来建模scRNA-seq的计数数据。
  3. 判别器 (Discriminator, D): 这是一个对抗性组件,它的任务是区分真实的表达谱$x$和由解码器伪造的表达谱 $\tilde{x}$。

这三个网络通过两个损失函数进行训练:

\[\text{ELBO} = -KL(q_\phi(z|x,s) \| p(z)) + \mathbb{E}_{q_\phi(z,l|x,s)} \log(p(x|z,s,l))\]

通过这个对抗过程,scDREAMER的解码器被训练成一个强大的数据生成器,能够产生高质量的、经批次校正的表达谱。

对抗性批次分类器 (Adversarial Batch Classifier)

这个组件是实现深度批次校正的关键。

批次分类器是一个简单的多层神经网络,它接收编码器生成的潜在嵌入$z$作为输入,并试图预测这个细胞来自哪个批次$s$。批次分类器$B$的目标是最小化分类的交叉熵损失,即尽可能准确地识别批次来源。而编码器$E$的目标则恰恰相反,它要最大化这个交叉熵损失,即生成一种模糊的、让批次分类器完全无法区分批次来源的潜在嵌入$z$。

\[\max_E \min_B -\sum_{j=1}^{|S|} s_j \times \log(r_j)\]

其中,$s_j$是真实的批次标签,$r_j$是分类器预测的概率。通过这场对抗,编码器$E$被强力地驱使去学习一种批次无关(batch-invariant)的细胞表征,从而从根本上消除了批次效应。

2.2 有监督模型 (scDREAMER-Sup)

当部分或全部细胞的类型标签已知时,scDREAMER-Sup可以通过一个更精巧的分层VAE模型来利用这些信息,以学习一个生物学意义更明确的潜在空间。

scDREAMER-Sup不再假设$z$服从简单的标准正态分布,而是引入了一个更具信息量的分层先验。它假设细胞的潜在嵌入$z$由两个因素共同决定:

即:$y \sim \mathcal{N}(0, I)$,$z \sim \mathcal{N}(f_{\mu_z}(y, c), f_{\sigma_z}(y, c))$。

为了学习这个分层结构,scDREAMER-Sup引入了第二个VAE($A_Y$)。这个VAE的编码器 $E_y$ 负责从$z$和$c$中推断出$y$,而解码器 $D_y$ 则负责从$y$和$c$中重构出$z$。

同时,模型还训练一个细胞类型分类器$C$,它从潜在嵌入$z$中预测细胞类型$c$。对于有标签的细胞,它通过最小化交叉熵损失来进行监督学习;对于无标签的细胞,它则可以用来预测缺失的标签。

通过联合训练这两个VAE和两个分类器(批次分类器和细胞类型分类器),scDREAMER-Sup能够将细胞类型信息有效地编码到潜在空间的结构中,从而在实现批次校正的同时,更好地保留和区分不同的生物学群体。

3. 实验分析

作者在六个具有不同挑战的真实基准数据集上,对scDREAMERscDREAMER-Sup的性能进行了全面的评估,涵盖了细胞类型比例倾斜、嵌套批次效应、大规模批次和跨物种整合等多种复杂场景。

3.1 无监督整合 (scDREAMER)

作者比较了scDREAMERscVI, Harmony, Seurat, BBKNN, Scanorama等九种主流的无监督整合方法。

3.1.1 在多协议、细胞类型倾斜数据上的表现

在整合了来自5种不同测序协议的胰腺数据集时,scDREAMER不仅完美地混合了不同批次,还清晰地分开了所有14种细胞类型,包括极为相似的激活和静息的星状细胞(图a, b)。

scDREAMER在综合整合得分上排名第一,比第二名高出约13%。这得益于它在生物学保留和批次校正两个方面均取得了顶尖或接近顶尖的性能(图c-e)。

3.1.2 在嵌套批次效应和大规模批次数据上的表现

在整合包含复杂嵌套批次效应(捐赠者、组织位置、测序平台)的肺部图谱数据,以及包含多达147个批次的心脏图谱数据时,scDREAMER再次展现了其强大的整合能力。

scDREAMER是少数能够清晰识别出罕见离子细胞(ionocytes)并将不同来源的分泌细胞和内皮细胞正确分开的方法之一。其综合整合得分再次位居榜首。

心脏图谱是一个极具挑战性的任务,Seurat, LIGER等方法甚至因内存问题而无法运行。scDREAMER成功地整合了这147个批次,其批次校正能力比第二名高出约50%,综合得分同样排名第一。

3.1.3 跨物种图谱级别整合

作者挑战了整合一个包含100万细胞的、来自人类和小鼠的跨物种图谱数据集。

scDREAMER成功地完成了这一图谱级别的整合任务,其运行速度快于scVI等其他基于深度学习的方法。UMAP图显示,scDREAMER清晰地分开了中性粒细胞、红细胞等主要细胞类型,其综合整合得分在所有无监督方法中排名第一,甚至优于一些有监督方法。

3.2 有监督整合 (scDREAMER-Sup)

作者比较了scDREAMER-SupscANVI, scGENSOTA有监督/半监督方法的性能。

在肺部图谱和人类免疫细胞两个数据集上,无论是在完全监督还是半监督(10%-50%标签缺失)的设置下,scDREAMER-Sup在所有综合评估指标(综合得分、生物学保留、批次校正)上均显著优于scANVIscGEN

scDREAMER-Sup的整合结果能够区分出更精细的生物学结构。例如,在肺部数据中,它成功分开了两个在无监督方法中被混合的中性粒细胞亚群。

在半监督任务中,scDREAMER-Sup预测缺失细胞类型标签的准确率(Macro F1-score)也显著高于scANVI,在不同数据集上相对提升了10%到33%不等。