scTour: 用于细胞动态稳健推断与精确预测的深度学习架构.

0. TL; DR

尽管研究人员持续努力,但目前仍然缺乏一个对批次效应不敏感,且能同时推断和预测发育动态的单细胞基因组学工具。本文介绍了一种名为scTour的新型深度学习架构,旨在以最小的批次效应影响,实现对细胞动态的稳健推断和精确预测。

在推断方面,scTour在一个统一的集成框架下,同时估计发育伪时间(developmental pseudotime)、描绘转录组向量场(vector field)以及映射转录组隐空间(latent space)。在预测方面,scTour能够精确地重构未见过的细胞状态或一个全新的独立数据集的底层动态。作者在涵盖19个数据集的多种生物学过程中,展示了scTour的强大功能。

1. 背景介绍

利用单细胞RNA测序(scRNA-seq)在单细胞分辨率上解码发育过程,面临着一个独特的困难:scRNA-seq只能捕捉到细胞的静态“快照”。此外,诸如谱系追踪(lineage tracing)和代谢标记(metabolic labelling)等实验方法,对于许多生物系统(尤其是人类组织)来说是不可行的。

为了分析这些动态过程,研究人员开发了许多计算工具,其中最流行的是基于伪时间的细胞排序和基于RNA velocity的未来细胞状态定向。尽管这些工具被广泛使用,但它们存在一些限制:

  1. 伪时间估计的局限性:大多数伪时间推断工具需要用户明确指定起始细胞,这意味着它们的应用局限于那些已经被充分研究的生物过程。
  2. RNA velocity的局限性:现有的基于RNA velocity的工具主要关注转录动力学的建模。这需要从细胞中提取剪接和未剪接的mRNA,这在大规模数据集中是一个速率限制步骤。此外,它对恒定动力学速率的假设和通过内含子读数对新生转录本的噪声近似,可能导致不准确的推断。
  3. 批次效应的影响:目前的算法在不同程度上都受到批次效应的影响,通常需要使用外部的批次校正工具来获得一个无批次效应的嵌入,以便进行velocity可视化或伪时间推断。这对于时间序列实验尤其困难。
  4. 预测功能的缺失或有限:当前的伪时间和向量场方法都无法对未见过的数据进行预测。虽然最近有研究使用向量场来预测细胞状态的前向或后向演化,但预测全新的、未见过的细胞状态仍然是一个挑战。

这些问题限制了当前方法在已建模数据之外的迁移和泛化能力。

为此,作者引入了scTour,一个创新的、基于深度学习的架构。除了克服上述限制外,scTour还能够在无监督的情况下,通过一个单一模型实现对多种生物过程的多方面剖析。scTour能够同时推断发育伪时间、转录组向量场和细胞的隐空间,并且所有这些推断在很大程度上不受数据集中固有的批次效应的影响。另一个优势是,伪时间估计无需用户输入起始细胞,向量场推断也不依赖于区分剪接和未剪接的mRNA,这使得scTour能够应用于其他基因组数据。最重要的是,scTour的最终模型可以被进一步用来预测未见过的细胞状态,甚至是一个全新的、模型从未见过的数据集的动态特性。

2. scTour 方法

scTour是一个新颖的深度学习架构,它建立在变分自编码器(variational autoencoder, VAE)和神经普通微分方程(neural ordinary differential equation, ODE)的框架之上,并针对单细胞基因组数据的动态分析进行了关键创新。

2.1 scTour的模型架构

给定一个基因表达矩阵$x \in R^{n \times g}$($n$个细胞,$g$个基因),scTour的模型包含以下几个核心组件:

时间编码器网络 ($f_t$)

这是一个由两个全连接层(FC layers)组成的神经网络,它将每个细胞的基因表达谱$x$映射为一个在$[0, 1]$范围内的标量时间$t$。这个$t$代表了细胞的发育伪时间。

隐变量编码器网络 ($f_z$)

这是另一个由两个全连接层组成的神经网络,它与时间编码器共享第一个隐藏层。它将$x$映射为一个多元高斯分布的参数——均值$\mu$和标准差$\sigma$,从而定义了后验分布$q(z|x)$。隐变量$z$通过重参数化技巧(reparameterization trick)从这个分布中采样得到。

\[\mu, \log\sigma^2 = f_z(x) \\ z \sim q(z|x) = N(z; \mu, \sigma^2I)\]

向量场网络 ($f_{ode}$)

这是一个由两个全连接层组成的神经网络,它定义了隐状态$z(t)$随时间$t$变化的导数,即向量场。

\[\frac{dz(t)}{dt} = f_{ode}(z(t))\]

神经ODE模块

这一模块负责学习隐空间中的连续动态。通过将所有细胞按其推断的时间$t$排序,可以找到时间最早的细胞,并将其隐变量$z$作为ODE的初始状态$z_{t_0}$。

给定初始状态$z_{t_0}$和每个细胞的时间点$(t_0, t_1, \dots, t_n)$,一个ODE求解器(如欧拉法)会积分上述微分方程,生成另一系列的隐表示$z_t$。

\[z_{t_1}, z_{t_2}, \dots, z_{t_n} = \text{ODESolve}(z_{t_0}, f_{ode}, t_0, t_1, \dots, t_n)\]

解码器网络 ($f_d$)

解码器接收来自两个源的隐表示——从VAE直接采样的$z$和从ODE求解器得到的$z_t$——并用它们来重构原始的基因表达谱$x$。

2.2 损失函数与训练策略

与原始的隐ODE模型相比,scTour的训练目标和策略有三大创新:

  1. 高效的小批量训练(Mini-batch training)scTour采用了标准的小批量训练策略,这使得模型训练更快,内存效率更高,并具有出色的可扩展性,能够处理大规模数据集。
  2. 无监督的时间推断:通过专门的时间编码器网络$f_t$,模型可以直接从转录组中学习每个细胞的发育时间,无需任何先验知识或指定起始点。
  3. 双重隐空间表示与加权损失scTour的解码器同时利用了来自VAE编码器的隐变量$z$和来自neural ODE的隐变量$z_t$。$z$保留了细胞内在的转录组结构,而$z_t$则反映了其在时间序列上的位置。通过一个加权的重构损失,模型能够平衡这两个信息源:
\[L = \alpha \cdot \log p(x|z) + (1-\alpha) \cdot \log p(x|z_t) - D_{KL}(q(z|x)\|p(z)) - \|z-z_t\|_2^2\]

其中,$\alpha$是一个超参数,用于平衡两个重构项的权重。这种设计被证明在重构细胞轨迹方面是一种优越的策略。

2.3 推断与预测

训练完成后,scTour提供了两大核心功能:

推断 (Inference)

预测 (Prediction)

对于一个模型从未见过的细胞或一个全新的数据集,训练好的scTour模型可以:

3. 实验分析

作者将scTour应用于来自19个不同数据集的多种生物过程,全面展示了其在推断和预测方面的准确性、鲁棒性和可扩展性。

3.1 scTour的推断功能捕捉了底层发育动态

小鼠齿状回神经发生

3.2 scTour的预测功能重构了未见细胞状态的动态

小鼠胰腺内分泌发生

作者在一个经典的胰腺内分泌发生数据集上测试了scTour的预测能力。

3.3 scTour实现了跨平台、跨系统、跨物种的预测

作者使用一个在人脑皮层发育数据集上训练好的scTour模型,去预测另外三个数据集的动态。这三个数据集分别来自不同的测序平台(Drop-seq vs. 10x Genomics)、不同的生物系统(in vivo vs. in vitro organoid)、不同的物种(人类 vs. 小鼠)。

在所有三个测试案例中,预训练的scTour模型都成功地预测了正确的伪时间、向量场和隐空间轨迹,而无需对这些新数据进行任何批次校正。这展示了scTour强大的泛化能力和对批次效应的内在鲁棒性。

3.4 与现有算法的基准比较

在一个复杂的人脑皮层发育数据集上,作者将scTourscVelo, Palantir, Monocle 3, SlingshotscVI等主流方法进行了全面比较。

3.5 应用于人类骨骼肌发育