RegVelo: 基因调控启发的单细胞动态.

0. TL; DR

细胞命运的转变是由复杂的基因调控网络(GRN)驱动的,然而,经典的RNA velocity模型在推断细胞动态时并未显式地考虑基因间的调控关系,这限制了我们对底层机理的理解。反之,传统的GRN推断方法大多忽略了生物系统的动态特性。为了解决这一概念上的脱节,本文提出了RegVelo,一个自下而上、可操作且可解释的深度学习框架,它能够同时对RNA剪接动力学和基因调控相互作用进行建模。

在多种生物系统中,RegVelo都展示了其在预测细胞终末状态、基因相互作用和扰动模拟方面的可靠能力。通过将RegVelo应用于斑马鱼神经嵴发育的全长Smart-seq3数据以及配对的基因表达和染色质可及性数据,作者描绘了控制命运决定的调控程序。在in silico(计算机模拟)扰动预测的指导下,并通过CRISPR-Cas9敲除和单细胞Perturb-seq实验的验证,作者确定了tfec是色素细胞命运的早期驱动因子,并揭示了elf1是一个新的调控因子。RegVelo为连接基因调控和细胞命运决定建立了一个定量的框架,使得研究人员能够模拟调控扰动并生成可检验的假设。

1. 背景介绍

单细胞技术以高分辨率揭示了细胞分化的过程,而Waddington的能量景观理论将表型状态形象地比喻为“山谷”,分化路径则如同山脊。然而,构建一个能同时捕捉GRN和细胞在这一景观上动态演化的模型,一直是计算单细胞生物学中的一个重大挑战。这类模型对于洞察生物学机理、预测基因敲除的动态效应以及指导实验至关重要。

目前主流的计算方法存在明显的“二分法”:

因此,当前迫切需要一种能直接将基因调控与细胞动态联系起来的模型,以揭示GRN如何编排动态的细胞过程。

为了填补这一空白,作者提出了RegVeloregulatory velocity)。RegVelo是一个深度生成模型,它将剪接动力学与基因调控耦合起来,通过一个受先验GRN指导的神经网络,将转录过程建模为一个依赖于调控因子和时间的动态过程。这使得RegVelo能够构建一个非线性的、全基因组范围的动态微分方程系统,并提供一个连续的速度向量场。更重要的是,它能够进行in silico的调控扰动模拟,从而在机理层面预测调控变化如何驱动细胞命运的决定。

2. RegVelo 方法

RegVelo是一个贝叶斯深度生成模型,它以未剪接(unspliced)和已剪接(spliced)的RNA丰度为输入,旨在推断基因和细胞特异性的潜变量,包括潜伏时间(latent time)、后验速度分布以及代表转录调控的GRN

2.1 耦合基因调控的动力学方程

与传统的RNA velocity模型为每个基因建立独立的动力学方程不同,RegVelo通过一个高维常微分方程(ODE)系统来描述所有基因的耦合动态。对于每个基因$g$,其未剪接RNA $u_g(t)$和已剪接RNA $s_g(t)$的动态由以下方程组描述:

\[\frac{du_g(t)}{dt} = \alpha_g(t) - \beta_g u_g(t) \\ \frac{ds_g(t)}{dt} = \beta_g u_g(t) - \gamma_g s_g(t)\]

这里的关键创新在于转录速率$\alpha_g$不再是一个常数,而是被建模为一个受基因调控影响的、随时间变化的函数:

\[\alpha_g = h\left([\mathbf{W}\mathbf{s}(t) + \mathbf{b}]_g\right)\]

其中$\mathbf{s}(t)$是所有基因在时间$t$的已剪接RNA丰度向量。$\mathbf{W}$是一个GRN权重矩阵,其中$W_{gj}$代表基因$j$对基因$g$的调控效应(正为激活,负为抑制)。$\mathbf{b}$是基础转录速率向量。$h$是一个非线性激活函数(如softplus),确保转录速率为非负。

通过这种方式,RegVelo将所有基因的动力学通过GRN矩阵$\mathbf{W}$耦合在了一起。

2.2 模型架构与推断过程

RegVelo的整体架构是一个深度生成模型,其推断过程基于变分推断:编码器神经网络将每个细胞的$u$和$s$丰度编码为一个低维的潜变量$z^{(n)}$。潜伏时间解码器(Latent Time Decoder)以潜变量$z^{(n)}$为输入,为每个细胞$n$和每个基因$g$输出一个特异性的潜伏时间$t_{ng}$。

转录速率预测器(Transcription Predictor)参数化了GRN权重矩阵$\mathbf{W}$。它接收所有基因的$s$丰度作为输入,并根据公式计算出每个细胞每个基因的转录速率$\alpha_{gn}$。这个网络在训练过程中会受到一个先验GRN的指导和约束。

结合学习到的转录速率$\alpha_{gn}$、剪接速率$\beta_g$和降解速率$\gamma_g$,模型使用一个可并行的ODE求解器来积分上述动力学方程,从而预测在潜伏时间$t_{ng}$下的$u$和$s$的丰度。

模型假设观测到的$u$和$s$丰度服从以预测值为均值的高斯分布。通过最大化证据下界(ELBO),模型可以同时优化所有网络参数和动力学参数($\mathbf{W}, \mathbf{b}, \beta, \gamma$等)。

2.3 对GRN的建模与约束

RegVeloGRN表示为一个权重矩阵$\mathbf{W}$,并通过两种策略来结合先验知识并处理其稀疏性:

通过对ODE系统的雅可比矩阵(Jacobian matrix)进行L1正则化,可以促进学习到的GRN的稀疏性,这符合生物系统中调控网络的普遍特征。

2.4 下游分析与扰动模拟

训练完成后,RegVelo能够提供丰富的信息:

3. 实验分析

作者通过一系列模拟和真实的生物学数据集,系统地验证了RegVelo的性能和应用价值。

实验一:在模拟和细胞周期数据集上的基准测试

在一个具有明确方向的U2OS细胞周期数据上,RegVelo的推断结果与实验观测高度一致。

实验二:胰腺内分泌细胞生成的调控动态解析

作者将RegVelo应用于小鼠胰腺内分泌细胞生成的数据集,并结合CellRank框架进行下游分析。

实验三:人类造血分化和肌生成中的调控基序恢复

实验四:斑马鱼神经嵴发育中的调控机制发现与验证

这是本文最核心的应用,展示了RegVelo如何从头发现新的生物学机制并指导实验验证。

首先,作者利用RegVelo分析了自采的斑马鱼神经嵴发育Smart-seq3数据,并结合了从多组学数据推断的先验GRN

为了系统性地验证in silico扰动预测,作者进行了大规模的Perturb-seq实验,并开发了新的评估指标。

新生物学发现有力地证明,RegVelo不仅是一个强大的动态推断工具,更是一个能够生成可检验假设、并指导实验发现新生物学机制的in silico细胞:

RegVelo还预测了另一个ETS家族转录因子elf1在色素细胞谱系中的促进作用。这一预测同样通过Perturb-seqHCR实验得到了证实,并且作者通过CUT&RUN实验识别了elf1的直接靶基因,从而揭示了其完整的调控上下文。