PRESCIENT用生成模型预测细胞干预下的命运轨迹.

0. TL; DR

现有的单细胞计算方法大多无法模拟细胞在真实物理时间下的随机演化过程,也无法预测基因干预如何改变细胞的分化轨迹。本文介绍了一种名为PRESCIENTPotential eneRgy undErlying Single Cell gradIENTs)的生成式建模框架。该框架能够从时间序列单细胞RNA测序(scRNA-seq)数据中学习一个潜在的分化“能量景观”。

通过在一个真实的谱系追踪数据集上进行验证,作者证明了在考虑细胞增殖的情况下,PRESCIENT能够准确预测造血过程中祖细胞的命运偏好,其性能超越了现有最优方法。更重要的是,PRESCIENT能够模拟基因被扰动后细胞的动态轨迹。作者在造血系统和胰腺β细胞分化模型中,成功地通过PRESCIENTin silico(计算机模拟)干预实验,重现了已知细胞命运调控因子的预期效果。PRESCIENT支持在不同时间点、从不同起始细胞群对多个基因进行复杂的组合扰动,为大规模的in silico扰动实验提供了可能。

1. 背景介绍

理解细胞分化的“能量景观”对于揭示细胞如何走向不同的终末状态至关重要,并且有助于在体外精确地操控细胞命运。scRNA-seq技术通过在分化过程的多个时间点对单个细胞进行采样,为研究这一景观提供了可能。然而,这些研究只能提供分化过程的“快照”,无法直接观察到不同时间点细胞之间的谱系关系。

为了解决这个问题,领域内发展了多种计算方法,但它们各有局限:

这些现有方法普遍缺乏一个关键能力:预测基因干预(interventions)对细胞分化轨迹的影响。为此,作者引入了PRESCIENT,一个生成式建模框架。PRESCIENT将细胞分化建模为一个在高维基因表达空间中的扩散过程,该过程由一个潜在的能量函数驱动。通过学习这个能量景观,PRESCIENT不仅能描述细胞的自然分化过程,还能模拟在基因表达被计算扰动后,细胞的命运会如何改变,这是现有方法无法实现的。

2. PRESCIENT 方法

PRESCIENT的核心思想是将细胞分化过程建模为一个在基因表达“能量景观”上的扩散过程。这个景观由一个潜在的能量函数(potential function)所定义,而作者的目标就是从时间序列的scRNA-seq数据中学习这个函数。

2.1 核心方程:随机微分方程

作者将细胞状态的演化过程用一个随机微分方程(stochastic differential equation, SDE)来描述:

\[dX(t) = \mu(X(t))dt + \sqrt{2\sigma^2}dW(t)\]

其中$X(t)$表示一个细胞在时间$t$的$k$维状态(例如,基因表达的PCA投影)。$\mu(X(t))$是一个漂移项(drift term),代表在当前状态$X(t)$下作用于细胞的“力”。$W(t)$是单位布朗运动,代表了细胞演化过程中的随机性或“噪声”。$\sigma^2$:是扩散系数,控制噪声的强度。

一个关键的设定是,漂移项$\mu(x)$被定义为能量函数$\Psi(x)$的负梯度:

\[\mu(x) = -\nabla\Psi(x)\]

这个设定非常直观:细胞总是倾向于从高能量区域移动到低能量区域,就像一个球会从山顶滚到山谷一样。因此,能量函数$\Psi(x)$就对应了沃丁顿(Waddington)提出的表观遗传景观的高度。

通过对上述SDE进行一阶时间离散化,就可以模拟细胞的轨迹:

\[X(t + \Delta t) = X(t) + \mu(X(t))\Delta t + \sqrt{2\sigma^2\Delta t}Z(t)\]

其中$Z(t)$是独立的标准高斯噪声。

2.2 模型学习:基于Wasserstein距离的优化目标

PRESCIENT的目标是仅根据在不同时间点观测到的细胞群体“快照”来推断未知的能量函数$\Psi(x)$。为此,作者构建了一个优化问题,其目标函数如下:

\[\min_{\Psi \in K} \sum_{i=1}^{n} W_2^2(\hat{\rho}(t_i;x), \rho_{\Psi}(t_i;x)) + \tau \sum_{j=1}^{m_n} \frac{\Psi(x_j)}{\sigma^2}\]

这个目标函数包含两个部分:

  1. Wasserstein距离:$W_2^2(\hat{\rho}, \rho_{\Psi})$是观测到的细胞群体分布$\hat{\rho}$与模型在能量函数$\Psi$下预测的分布$\rho_{\Psi}$之间的Wasserstein距离。最小化这个距离,就是让模型模拟出的细胞群体分布尽可能地接近真实观测。利用GeomLoss库高效地计算Wasserstein距离及其梯度,并使用GPU进行加速,使得模型可以处理大规模数据集。
  2. 熵正则化项:第二项是一个正则化项,用于惩罚过于复杂的能量函数,防止模型过拟合,其中$\tau$是正则化强度参数。

为了能够处理高维度的scRNA-seq数据并学习复杂的能量景观,作者使用一个softplus激活函数的双层神经网络来参数化能量函数$\Psi(x)$。

2.3 考虑细胞增殖

细胞在分化过程中会增殖和凋亡,这会影响后代细胞的数量。PRESCIENT通过在计算Wasserstein距离时为每个细胞赋予权重来考虑这一因素。具体来说,在从一个时间点映射到下一个时间点时,每个源细胞$x_i$的权重$\alpha_i$被设定为其预期的后代数量。这样,增殖能力更强的细胞在优化过程中会获得更大的“影响力”。

预期后代数量可以通过两种方式获得:

  1. 基于谱系追踪数据:如果实验中使用了谱系追踪技术,可以直接计算每个克隆在不同时间点的细胞数量来得到真实的增殖率。
  2. 基于基因表达估计:在没有谱系追踪数据时,可以使用KEGG等数据库中与细胞周期和凋亡相关的基因集的表达水平来估计增殖率。

3. 实验分析

作者通过一系列实验,全面验证了PRESCIENT的性能及其在in silico扰动模拟中的独特能力。

实验一:在造血谱系追踪数据集上的验证

作者使用了一个带有DNA条形码的小鼠造血系统谱系追踪数据集来验证PRESCIENT

实验二:造血系统中转录因子的in silico扰动模拟

作者展示了PRESCIENT最强大的功能:模拟基因扰动。

实验三:胰腺β细胞分化中的in silico扰动模拟

作者将PRESCIENT应用于另一个经典分化系统——体外诱导胰腺β细胞分化,进一步展示了其模拟复杂扰动的能力。