从单细胞转录组数据中重构生长与动态轨迹.
0. TL; DR
在处理时间序列单细胞转录组(scRNA-seq)数据时,一个核心挑战是如何连接不同时间点的“快照”,因为测序过程会破坏细胞,导致细胞谱系和生长信息丢失。这篇论文介绍了一种名为TIGON(Trajectory Inference with Growth via Optimal transport and Neural network)的新算法。
TIGON基于动态非平衡最优传输(dynamic, unbalanced optimal transport)理论,能够同时推断细胞基因表达的velocity(速度,即状态转变)和growth(生长,即增殖与凋亡)。为了解决高维度的最优传输问题,作者引入了一种基于Wasserstein–Fisher–Rao (WFR)距离的无量纲公式,并利用深度学习方法(特别是神经常微分方程 neural ODEs)进行求解。
通过在模拟数据和三个真实的scRNA-seq数据集上的测试,TIGON不仅准确地重构了细胞轨迹和种群生长,还能推断未测量时间点的基因表达、时序性的基因调控网络(GRN)以及细胞间的通讯动态,展示了其强大的功能和广泛的应用前景。
1. 背景介绍
时间序列单细胞RNA测序(scRNA-seq)技术为我们观察细胞系统的动态过程提供了前所未有的机会。然而,这项技术本身具有破坏性,细胞在测序过程中会被杀死。因此,我们只能获得一系列离散时间点的细胞“快照”,而不同快照之间的细胞谱系关系或单个细胞的动态轨迹是缺失的。
为了解决这个问题,领域内已经发展出多种计算方法:
- Pseudotime(伪时间)方法通过基因表达的相似性来排列细胞,从而构建分化轨迹,但它不依赖于真实的物理时间。
- RNA velocity利用mRNA的剪接与未剪接比例来推断细胞状态的转变方向。
- 一些方法基于Fokker–Planck方程或种群平衡分析(population balance analysis)来描述细胞群动态,但通常假设系统处于稳态或平衡状态,难以捕捉发育等时变过程。
- 近年来,最优传输(Optimal Transport, OT)理论被用于连接scRNA-seq的时间序列快照。例如,Waddington-OT、TrajectoryNet和MIOFlow等方法利用OT来推断细胞的运输计划或连续路径。
然而,现有方法大多忽略了一个关键的生物学过程:细胞种群的生长,即细胞的增殖和凋亡。细胞数量的变化会显著影响我们对细胞轨迹的推断。如果不考虑生长,可能会导致对动态过程的理解不完整甚至产生错误。一些前沿工作(如Waddington-OT和PRESCIENT)尝试通过KEGG或GO等数据库中的生长标志基因来近似估计生长率,但这种方法高度依赖于先验知识库的选择,可能引入偏见。
因此,当前迫切需要一种能够将基因表达速度和细胞种群生长同时纳入统一框架的计算工具。为此,作者提出了TIGON,一个基于深度学习的动态非平衡最优传输模型,旨在从时间序列scRNA-seq数据中同时、无偏地推断细胞velocity和growth。
2. TIGON 模型
TIGON的核心思想是将细胞群体在基因表达空间中的分布描述为一个随时间变化的密度函数 $ρ(x, t)$,其中 $x$ 是 $d$ 维基因表达状态, $t$ 是时间。这个密度函数的变化由一个包含平流项和生长项的偏微分方程(PDE)控制。

2.1 包含生长的连续性方程
细胞密度的动态演化遵循以下方程:
\[\partial_t\rho (x, t) + \nabla \cdot (\mathbf{v} (x, t)\rho (x, t)) = g (x, t)\rho (x, t)\]其中:
- $ρ(x, t)$:在时间 $t$、基因表达状态为 $x$ 的细胞密度。
- $\mathbf{v}(x, t)$:细胞的velocity(速度)向量,描述了在时间 $t$、状态为 $x$ 的细胞其基因表达的瞬时变化方向和速率。
- $g(x, t)$:细胞的growth(生长)率,描述了由于细胞增殖和凋亡导致的种群数量的瞬时净变化。
- $\nabla \cdot (\mathbf{v}\rho)$:平流项,描述了细胞密度因状态转变(即velocity)而发生的“运输”。
这个方程直观地表明,一个区域内细胞密度的变化,来源于两个方面:细胞“流”进或“流”出该区域(由$\mathbf{v}$决定),以及该区域内细胞自身的增殖或死亡(由$g$决定)。
2.2 优化目标:Wasserstein–Fisher–Rao (WFR) 距离
为了求解上述方程中的未知函数 $\mathbf{v}$ 和 $g$,作者引入了动态非平衡最优传输理论,并使用Wasserstein–Fisher–Rao (WFR)距离作为优化目标。其目标函数(或称为cost)定义为:
\[W_{0,T} = \int_{0}^{T}\int_{\mathbb{R}^d} (|\mathbf{v} (x, t)|^2 + \alpha|g (x, t)|^2)\rho (x, t)dx dt\]这个cost函数由两部分组成:
- $|\mathbf{v}(x, t)|^2$ 项:对应于Wasserstein度量,代表了细胞状态转变的“动能”消耗。
- $|g(x, t)|^2$ 项:对应于Fisher–Rao度量,代表了细胞种群生长或消亡的“能量”消耗。
- $\alpha$ 是一个超参数,用于平衡velocity和growth在总cost中的权重。
通过最小化这个WFR cost,算法可以找到在满足数据约束(即在给定的时间点上,计算出的密度与观测到的细胞分布相匹配)的同时,最为“经济”的velocity场$\mathbf{v}$和growth场$g$。
2.3 深度学习求解:无量纲公式与神经ODE
直接求解上述高维PDE和优化问题在计算上是极其困难的,存在“维度灾难”问题。TIGON采用了一种基于深度学习的无量纲(mesh-free)方法来解决这一难题。
作者使用两个全连接神经网络来近似未知的velocity和growth函数。通过数学推导,作者证明了可以将高维PDE问题转化为沿着单个细胞轨迹的常微分方程(ODE)系统。这使得计算可以从整个高维空间上的积分,简化为对一系列采样点进行轨迹追踪。
整个系统被构建为一个neural ODE模型。模型的训练过程如下:
- 前向传播:给定一个初始时间和细胞状态,利用ODE求解器(如DOPRI5)沿着由$\mathbf{NN}_1$定义的velocity场积分,得到细胞的轨迹。同时,积分由$\mathbf{NN}_2$定义的growth率,计算密度和WFR cost。
- 损失函数:总的损失函数由两部分加权组成:$Loss = W + \lambda_d R$,其中$W$是WFR cost,而$R$是重构误差,用于衡量在各个时间点上,模型预测的细胞密度与真实观测到的细胞密度的差异。
- 反向传播:利用neural ODE的伴随方法(adjoint method)高效地计算损失函数相对于两个神经网络参数的梯度,并使用Adam优化器进行更新。
2.4 下游分析
在训练完成后,TIGON可以提供丰富的下游分析:
- 细胞轨迹推断:通过对学习到的velocity场$\mathbf{v}$进行积分,可以预测任何一个细胞在未来的动态轨迹。
- 基因调控网络 (GRN) 推断:通过计算velocity场$\mathbf{v}$对基因表达状态$x$的雅可比矩阵 $J = {\frac{\partial v_i}{\partial x_j}}$,可以构建一个有向、有符号、有权重的GRN。其中$J_{ij}$代表了第$j$个基因对第$i$个基因的调控强度(正为激活,负为抑制)。
- 生长相关基因识别:通过计算growth函数$g$对基因表达状态$x$的梯度 $\nabla g = {\frac{\partial g}{\partial x_j}}$,可以评估每个基因对细胞生长的贡献。梯度值最大的基因被认为是关键的生长相关基因。
3. 实验分析
作者通过一个模拟数据集和三个真实的scRNA-seq数据集,全面评估了TIGON的性能。
实验一:三基因模拟模型基准测试
作者构建了一个包含三个基因的随机模型,模拟了两种细胞动态:一部分细胞处于静态(quiescent),另一部分细胞从状态A转变到状态B,并在转变过程中增殖。
- 图b, c:TIGON的预测结果与真实情况高度一致。
- 图b显示,velocity箭头准确地指向了A到B的转变路径,而静态细胞的velocity接近于零。灰色轨迹线展示了预测的细胞动态路径。
- 图c显示,模型准确地识别出在A到B的转变路径上存在较高的growth值,并且growth的梯度方向(红色箭头)也指向生长潜力最大的区域。
- 图d, e, f:基因层面的分析非常准确。
- 图d的growth梯度分析正确地将基因B识别为主要的生长促进基因。
- 图e, f的GRN分析成功重构了基因A和B之间的“拨动开关”(toggle-switch)关系(相互抑制和自我激活)。
- 图g:与平衡OT(即不考虑growth的版本)对比。平衡OT为了解释细胞比例的变化,错误地为静态细胞群分配了velocity,导致了虚假的转变预测。这凸显了在模型中包含growth项的重要性。
- 图h, i:定量比较显示,在预测velocity和细胞群比例的准确性上(以均方误差m.s.e.衡量),TIGON均优于其他基于OT的方法(Balanced OT, TrajectoryNet, MIOFlow)。
- 图j:在GRN推断任务中,与12种其他主流方法相比,TIGON在AUPRC(精确率-召回率曲线下面积)指标上取得了最高分,证明了其在推断有向、带权重的因果调控关系方面的优越性。

实验二:与谱系追踪实验结果的对齐
作者将TIGON应用于一个带有谱系追踪(lineage tracing)条形码的小鼠造血干细胞分化数据集。该数据集提供了细胞分化到中性粒细胞(Neu)和单核细胞(Mo)的真实谱系信息。
- 图a, b:TIGON的动态预测。
- 图a的velocity场清晰地展示了从祖细胞到Neu和Mo两个命运的分叉过程。
- 图b的轨迹预测也同样描绘了这一分叉动态。
- 图d:growth预测的验证。作者将TIGON推断的growth值与利用克隆条形码计算的真实growth值进行比较,两者呈现出显著的正相关(Pearson相关系数为0.62),证明了growth推断的准确性。
- 图e:命运概率预测对比。实验的克隆命运概率呈现出清晰的二元分布(即细胞很早就决定了其最终命运)。TIGON、TrajectoryNet和MIOFlow的预测结果与此模式一致。相比之下,PBA、Waddington-OT (WOT)和FateID的预测则较为模糊,许多细胞的命运概率在0.5附近徘徊。
- 图f:定量准确性评估。无论是以Pearson相关性还是AUROC作为指标,TIGON在预测细胞命运方面的准确性均名列前茅,显著优于PBA、WOT和FateID。

实验三:上皮-间质转化(EMT)过程的动态重构
作者分析了一个诱导A549癌细胞发生EMT的时间序列scRNA-seq数据集。
- 图a, b:TIGON的EMT动态预测。
- 图a的轨迹清晰地展示了细胞从上皮(E)状态经由中间状态向间质(M)状态的转变。
- 图b推断出的growth在中间状态达到峰值,这与文献报道的EMT中间态细胞具有更强干性的特征相符。
- 图c-g:基因层面的分析。
- 图c重构了关键标志基因的表达动态,E标志物(CDH1)下降,M标志物(VIM, FN1)上升。
- 图d, e的GRN显示了E标志物对M标志物的抑制作用。
- 图f分析了关键转录因子SNAI1的调控网络,发现其对VIM和FN1有正向调控作用,与已知生物学功能一致。
- 图g识别出的顶层生长相关基因(如ANGPTL4, JUNB)大多在UniProtKB数据库中被报道与细胞生长有关。
- 图h, i:动态细胞通讯分析。利用TIGON在未测量时间点(如第2天)生成细胞数据,再通过CellChat分析,揭示了COLLAGEN和SPP1等信号通路在EMT过程中复杂的动态变化(例如在第2天短暂下调后于第3天再次上调),这些精细的动态无法仅从原始测量点观察到。

与其他方法的比较。
- 图d的velocity场比较显示,TIGON和MIOFlow的velocity方向清晰、有序,与EMT进程一致,而scVelo的velocity场则显得杂乱无章。
- 图e, f的growth推断比较显示,TIGON推断的生长模式(中间态最高)与实验观测(后期细胞数减少)更吻合。而基于KEGG基因集的方法预测生长在终末期最强,与事实相悖;基于GO基因集的方法则得出相反结论。这再次证明了TIGON作为一种无偏方法的优越性。

实验四:iPSC定向分化中的分叉识别
作者最后分析了一个人诱导多能干细胞(iPSC)向心肌细胞分化的qPCR数据集,该过程包含一个向中胚层(M)和内胚层(En)的分叉。
- 图a, b:分叉过程的重构。TIGON的velocity场和细胞轨迹清晰地展示了细胞在第3天后发生分叉,分别走向M和En两个不同的命运。
- 图c:growth分析显示,生长速率在分叉点附近(第2-3天)达到峰值,表明细胞在命运决定前经历了快速增殖。
- 图d-h:标志基因和GRN分析。
- 图d展示了三个关键标志物(NANOG, SOX17, HAND1)表达空间中的细胞轨迹。
- 图e, g推断的GRN在不同细胞类型和时间点都稳定地显示出:三个标志基因均存在自我激活,且任意一对之间都存在相互抑制。这与已知的HAND1和SOX17之间的toggle-switch调控机制相符。
- 图f识别出的顶层生长相关基因(如NANOG, PTCH1)均为已知的生长调控因子。
