scTour: 用于细胞动态稳健推断与精确预测的深度学习架构.
0. TL; DR
尽管研究人员持续努力,但目前仍然缺乏一个对批次效应不敏感,且能同时推断和预测发育动态的单细胞基因组学工具。本文介绍了一种名为scTour的新型深度学习架构,旨在以最小的批次效应影响,实现对细胞动态的稳健推断和精确预测。
在推断方面,scTour在一个统一的集成框架下,同时估计发育伪时间(developmental pseudotime)、描绘转录组向量场(vector field)以及映射转录组隐空间(latent space)。在预测方面,scTour能够精确地重构未见过的细胞状态或一个全新的独立数据集的底层动态。作者在涵盖19个数据集的多种生物学过程中,展示了scTour的强大功能。
1. 背景介绍
利用单细胞RNA测序(scRNA-seq)在单细胞分辨率上解码发育过程,面临着一个独特的困难:scRNA-seq只能捕捉到细胞的静态“快照”。此外,诸如谱系追踪(lineage tracing)和代谢标记(metabolic labelling)等实验方法,对于许多生物系统(尤其是人类组织)来说是不可行的。
为了分析这些动态过程,研究人员开发了许多计算工具,其中最流行的是基于伪时间的细胞排序和基于RNA velocity的未来细胞状态定向。尽管这些工具被广泛使用,但它们存在一些限制:
- 伪时间估计的局限性:大多数伪时间推断工具需要用户明确指定起始细胞,这意味着它们的应用局限于那些已经被充分研究的生物过程。
- RNA velocity的局限性:现有的基于RNA velocity的工具主要关注转录动力学的建模。这需要从细胞中提取剪接和未剪接的mRNA,这在大规模数据集中是一个速率限制步骤。此外,它对恒定动力学速率的假设和通过内含子读数对新生转录本的噪声近似,可能导致不准确的推断。
- 批次效应的影响:目前的算法在不同程度上都受到批次效应的影响,通常需要使用外部的批次校正工具来获得一个无批次效应的嵌入,以便进行velocity可视化或伪时间推断。这对于时间序列实验尤其困难。
- 预测功能的缺失或有限:当前的伪时间和向量场方法都无法对未见过的数据进行预测。虽然最近有研究使用向量场来预测细胞状态的前向或后向演化,但预测全新的、未见过的细胞状态仍然是一个挑战。
这些问题限制了当前方法在已建模数据之外的迁移和泛化能力。
为此,作者引入了scTour,一个创新的、基于深度学习的架构。除了克服上述限制外,scTour还能够在无监督的情况下,通过一个单一模型实现对多种生物过程的多方面剖析。scTour能够同时推断发育伪时间、转录组向量场和细胞的隐空间,并且所有这些推断在很大程度上不受数据集中固有的批次效应的影响。另一个优势是,伪时间估计无需用户输入起始细胞,向量场推断也不依赖于区分剪接和未剪接的mRNA,这使得scTour能够应用于其他基因组数据。最重要的是,scTour的最终模型可以被进一步用来预测未见过的细胞状态,甚至是一个全新的、模型从未见过的数据集的动态特性。
2. scTour 方法
scTour是一个新颖的深度学习架构,它建立在变分自编码器(variational autoencoder, VAE)和神经普通微分方程(neural ordinary differential equation, ODE)的框架之上,并针对单细胞基因组数据的动态分析进行了关键创新。

2.1 scTour的模型架构
给定一个基因表达矩阵$x \in R^{n \times g}$($n$个细胞,$g$个基因),scTour的模型包含以下几个核心组件:
时间编码器网络 ($f_t$)
这是一个由两个全连接层(FC layers)组成的神经网络,它将每个细胞的基因表达谱$x$映射为一个在$[0, 1]$范围内的标量时间$t$。这个$t$代表了细胞的发育伪时间。
隐变量编码器网络 ($f_z$)
这是另一个由两个全连接层组成的神经网络,它与时间编码器共享第一个隐藏层。它将$x$映射为一个多元高斯分布的参数——均值$\mu$和标准差$\sigma$,从而定义了后验分布$q(z|x)$。隐变量$z$通过重参数化技巧(reparameterization trick)从这个分布中采样得到。
\[\mu, \log\sigma^2 = f_z(x) \\ z \sim q(z|x) = N(z; \mu, \sigma^2I)\]向量场网络 ($f_{ode}$)
这是一个由两个全连接层组成的神经网络,它定义了隐状态$z(t)$随时间$t$变化的导数,即向量场。
\[\frac{dz(t)}{dt} = f_{ode}(z(t))\]神经ODE模块
这一模块负责学习隐空间中的连续动态。通过将所有细胞按其推断的时间$t$排序,可以找到时间最早的细胞,并将其隐变量$z$作为ODE的初始状态$z_{t_0}$。
给定初始状态$z_{t_0}$和每个细胞的时间点$(t_0, t_1, \dots, t_n)$,一个ODE求解器(如欧拉法)会积分上述微分方程,生成另一系列的隐表示$z_t$。
\[z_{t_1}, z_{t_2}, \dots, z_{t_n} = \text{ODESolve}(z_{t_0}, f_{ode}, t_0, t_1, \dots, t_n)\]解码器网络 ($f_d$)
解码器接收来自两个源的隐表示——从VAE直接采样的$z$和从ODE求解器得到的$z_t$——并用它们来重构原始的基因表达谱$x$。
2.2 损失函数与训练策略
与原始的隐ODE模型相比,scTour的训练目标和策略有三大创新:
- 高效的小批量训练(Mini-batch training):scTour采用了标准的小批量训练策略,这使得模型训练更快,内存效率更高,并具有出色的可扩展性,能够处理大规模数据集。
- 无监督的时间推断:通过专门的时间编码器网络$f_t$,模型可以直接从转录组中学习每个细胞的发育时间,无需任何先验知识或指定起始点。
- 双重隐空间表示与加权损失:scTour的解码器同时利用了来自VAE编码器的隐变量$z$和来自neural ODE的隐变量$z_t$。$z$保留了细胞内在的转录组结构,而$z_t$则反映了其在时间序列上的位置。通过一个加权的重构损失,模型能够平衡这两个信息源:
其中,$\alpha$是一个超参数,用于平衡两个重构项的权重。这种设计被证明在重构细胞轨迹方面是一种优越的策略。
2.3 推断与预测
训练完成后,scTour提供了两大核心功能:
推断 (Inference)
- 发育伪时间:由时间编码器网络$f_t$直接输出。
- 转录组向量场:由向量场网络$f_{ode}$定义,描述了细胞在隐空间中的未来走向。
- 隐空间表示:通过加权组合$z$和$z_t$得到,这个联合的隐空间融合了内在转录组结构和外在时间信息,为重构更精细的细胞轨迹提供了更丰富的信息。
预测 (Prediction)
对于一个模型从未见过的细胞或一个全新的数据集,训练好的scTour模型可以:
- 预测其伪时间:通过$f_t$网络。
- 预测其向量场:通过$f_{ode}$网络。
- 预测其隐空间位置。
- 如果给定一个未观测的时间区间,scTour可以通过积分ODE来重构该时间段内细胞的转录组隐空间。
3. 实验分析
作者将scTour应用于来自19个不同数据集的多种生物过程,全面展示了其在推断和预测方面的准确性、鲁棒性和可扩展性。
3.1 scTour的推断功能捕捉了底层发育动态
小鼠齿状回神经发生
- 图a:在一个线性的、连续的颗粒细胞分化谱系上,scTour的三个输出都与生物学预期高度一致:
- 伪时间:清晰地重现了从nIPC到成熟颗粒细胞的发育进程。
- 向量场:在UMAP图上描绘了沿分化路径的定向流。其性能优于基于内含子读数的RNA velocity,后者未能捕捉到从不成熟到成熟颗粒细胞的转变。
- 隐空间:相比于基于PCA的UMAP,scTour的隐空间构建了一个更精细、更连续的细胞轨迹。
- 图b-g(处理批次效应和复杂拓扑):在一个更复杂的数据集,包含了锥体神经元和颗粒细胞的分叉,并且存在显著的批次效应。
- 图c显示,原始的PCA空间中,细胞按批次明显分开。
- 图d, e, f, g显示,scTour的伪时间、隐空间和向量场都成功地重构了两个分化分支,并且几乎完全不受批次效应的影响。这是因为ODE求解器对潜在状态的连续时间变换,自然地“平滑”掉了批次间的差异。
- 图h, i(对细胞二次采样的鲁棒性):
- 图h显示,即使只用1%的细胞进行训练,scTour也能大致勾勒出分化轨迹。随着训练数据量的增加,推断出的动态迅速收敛。
- 图i展示了仅用20%数据训练的模型,其推断出的伪时间、向量场和隐空间已经能够成功地重构完整的双分叉轨迹。

3.2 scTour的预测功能重构了未见细胞状态的动态
小鼠胰腺内分泌发生
作者在一个经典的胰腺内分泌发生数据集上测试了scTour的预测能力。
- 图a:首先,使用完整数据集训练的模型,其推断的伪时间准确地重现了从祖细胞到终末细胞的分化顺序,并且优于scVelo的潜伏时间。
- 图b,c,d(预测中间状态):作者在训练时移除了中间的Fev+内分泌细胞,然后用训练好的模型进行推断和预测。
- 图b:推断出的伪时间在EP和终末细胞之间留下了一个预期的时间“缺口”。散点图显示,推断的伪时间与用完整数据推断的结果高度相关。
- 图c:模型成功地为被移除的Fev+细胞预测了伪时间,恰好填补了这个缺口。ROC曲线也证实了预测的准确性。
- 图d:预测的向量场也正确地将这些细胞导向终末命运。
- 图e-i(预测转录组空间):作者进一步测试了更具挑战性的任务:仅根据一个未观测的时间区间,来重构该区间的转录组特征。
- 图e, f:在移除了Ngn3high EP细胞进行训练后,模型被要求预测这个缺失时间段的隐空间。预测出的隐空间点(红色轮廓)被准确地放置在Ngn3low EP和Fev+细胞之间。
- 图g, h, i:将预测的细胞与真实的Ngn3high EP细胞进行比较,发现它们在UMAP空间中重叠(g),在距离上最接近(h),并且在层级聚类中被分到同一个分支(i)。这证明了scTour能够准确地重构未观测细胞状态的转录组空间。

3.3 scTour实现了跨平台、跨系统、跨物种的预测
作者使用一个在人脑皮层发育数据集上训练好的scTour模型,去预测另外三个数据集的动态。这三个数据集分别来自不同的测序平台(Drop-seq vs. 10x Genomics)、不同的生物系统(in vivo vs. in vitro organoid)、不同的物种(人类 vs. 小鼠)。
在所有三个测试案例中,预训练的scTour模型都成功地预测了正确的伪时间、向量场和隐空间轨迹,而无需对这些新数据进行任何批次校正。这展示了scTour强大的泛化能力和对批次效应的内在鲁棒性。

3.4 与现有算法的基准比较
在一个复杂的人脑皮层发育数据集上,作者将scTour与scVelo, Palantir, Monocle 3, Slingshot和scVI等主流方法进行了全面比较。
- 图a:一张总结表格,清晰地列出了scTour相比于其他工具所独有的功能,如无监督伪时间推断、对批次效应不敏感以及预测能力。
- 图b(伪时间):scTour的伪时间与已知标志物基因表达的相关性最高,并且不受批次效应影响,优于其他所有方法。
- 图c(向量场):scTour的向量场一致性最高,而scVelo的动态模型甚至出现了错误的方向。
- 图d(隐空间/批次校正):scTour的隐空间在不提供批次信息的情况下,就实现了良好的批次混合和生物状态保持。相比之下,scVI在没有批次校正时完全被批次效应主导,只有在明确提供批次信息后才能达到与scTour相当的性能。

3.5 应用于人类骨骼肌发育
- 图a, b, c:scTour的批次不敏感性使其能够整合来自不同发育阶段(从胚胎到成年)的细胞,构建一个完整的人类骨骼肌发生轨迹。伪时间(b)与真实的采样时间(c)高度一致。
- 图d:对祖细胞和干细胞的专门分析,揭示了它们在产前发育过程中的渐进转录组变化,以及产前和产后细胞之间的明显分离。
- 图e:沿伪时间轴的基因表达动态热图,揭示了前所未见的、与不同发育阶段相关的转录模式。
- 图f:一个关键的预测应用。将在in vivo数据上训练的模型,用于预测通过不同方案在in vitro诱导分化出的细胞的发育阶段。scTour提供了比以往方法更高分辨率的in vitro-in vivo对齐,并揭示了不同诱导方案之间的差异。
