从单细胞转录组数据中重构生长与动态轨迹.
0. TL; DR
本文介绍的moscot (multi-omics single-cell optimal transport) 是一个为单细胞基因组学设计的、可扩展的OT计算框架,它系统性地解决了上述所有问题。moscot支持跨所有应用的多模态数据,通过工程和算法创新(如low-rank近似)实现了对百万级细胞图谱的高效分析,并提供了一个统一、易用的API。
作者通过一系列应用展示了moscot的强大能力:
- 时间轨迹:成功重构了包含170万个细胞、跨越20个时间点的小鼠胚胎发育轨迹。
- 空间映射:将多模态单细胞数据(CITE-seq)映射到小鼠肝脏空间转录组上,丰富了空间数据的生物学信息;并成功对齐了多个小鼠大脑的冠状切片。
- 时空动力学:提出了一种全新的moscot.spatiotemporal方法,结合时间和空间信息,揭示了小鼠胚胎发生的时空动态。
- 新生物学发现:在一个全新的小鼠胰腺发育多组学数据集上,解析了delta细胞和epsilon细胞的谱系关系,并预测了NEUROD2是epsilon祖细胞的关键调控因子,这一发现通过人诱导多能干细胞的KO实验得到了验证。
1. 背景介绍
单细胞基因组学技术,如单细胞RNA测序(scRNA-seq)和空间转录组学,极大地增进了我们对细胞分化和组织结构的理解。然而,这些技术通常是破坏性的,我们只能获得细胞在某个时间点或某个空间位置的“快照”,而无法追踪同一个细胞的完整生命历程。因此,如何将这些离散的“快照”重新对齐,以恢复细胞的动态和空间背景,成为一个核心的计算挑战。
最优传输(Optimal Transport, OT)作为一个强大的数学框架,已被证明在解决这类映射问题中非常有效。例如,Waddington-OT (WOT)被用于描绘细胞重编程过程,novoSpaRc被用于将单细胞数据映射到空间位置,PASTE则用于对齐不同的空间转录组切片。
尽管OT方法潜力巨大,但其在单细胞领域的应用仍面临三个关键挑战:
- 单模态限制:大多数现有工具仅为单模态数据(如仅RNA表达)设计,无法整合利用日益普及的多模态数据(如RNA+ATAC或RNA+蛋白质)。
- 可扩展性瓶颈:标准OT算法的时间和内存复杂度随细胞数量呈二次方(甚至三次方)增长,这使其难以应用于包含数百万细胞的生物学图谱。
- 实现不统一:现有的OT工具基于不同的实现,API异构,导致用户难以在不同问题间调整或组合使用,也为开发者扩展新功能带来了障碍。
为了克服这些限制,作者开发了moscot,一个统一、可扩展且支持多模态的OT计算框架,旨在释放OT在时间、空间和时空单细胞分析中的全部潜力。
2. Moscot 框架
Moscot的核心是将生物学上的细胞映射和对齐问题,转化为数学上的最优传输(OT)问题,并使用一套一致且高效的算法进行求解。其基本流程是:输入非配对的数据集(如不同时间点或空间切片的数据),结合先验生物学知识(如细胞增殖率),求解一个OT问题,最终生成一个概率性的“耦合矩阵”,该矩阵描述了不同数据集中细胞之间的对应关系。
2.1 Moscot使用的三种最优传输模型

为了应对不同的生物学问题,moscot内置了三种OT模型,它们在如何关联细胞分布上有所不同:
Wasserstein-type (W-type) OT
这是最基础的OT形式,用于比较具有相同特征的两个细胞群(例如,两个时间点的scRNA-seq数据)。它旨在找到一个耦合矩阵 $P$ ,使得在将细胞从一个分布“运输”到另一个分布时,总的“运输成本”最小。在实际计算中,作者采用了熵正则化的OT问题:
\[P^* = \text{argmin}_{P \in U(a,b)} \langle P, C \rangle - \epsilon H(P)\]其中$C$是成本矩阵,$C_{ij}$表示将细胞$i$移动到细胞$j$的成本(通常是它们在基因表达空间中的距离)。$U(a,b)$是所有可能的耦合矩阵的集合,这些矩阵需要满足边际约束,即行和与列和分别等于预设的边际分布$a$和$b$。$H(P)$是熵正则项,它使得问题更易于求解,并能产生更平滑、非稀疏的解。$\epsilon > 0$是正则化强度。该问题可以通过高效的Sinkhorn算法求解。
为了更贴近生物学现实,moscot还引入了两个重要扩展:
- 生长与凋亡:通过调整边际分布$a$来模拟细胞的增殖和死亡。例如,增殖能力强的细胞可以被赋予更大的“质量”,从而在映射中影响更多的后代细胞。
- 非平衡OT (Unbalanced OT):通过Kullback–Leibler (KL)散度惩罚项来放宽严格的边际约束,允许总质量在运输前后发生变化。这对于处理因细胞采样偏差或生长率估计不准导致的数据集大小不一的情况至关重要。
Gromov–Wasserstein-type (GW-type) OT
当两个细胞群的特征空间不同,但其内部结构相似时(例如,对齐两个仅有空间坐标的组织切片),GW-type OT非常有用。它不直接比较细胞特征,而是比较细胞间的距离关系矩阵,寻找能最好地保持这种内部几何结构的映射。
Fused Gromov–Wasserstein-type (FGW-type) OT
这是一种混合模型,结合了W-type和GW-type的优点。它适用于细胞群具有部分共享特征和各自内部结构的情况。例如,在将单细胞RNA-seq数据映射到空间转录组数据时,我们可以同时最小化共享基因表达的差异(W-type部分)和最大化基因表达空间结构与物理空间结构的对应关系(GW-type部分)。其目标函数形式如下:
\[P^* = \text{argmin}_{P \in U(a,b)} \alpha \sum L(C_X, C_Y)P \otimes P + (1-\alpha) \langle P, C \rangle - \epsilon H(P)\]第一项是GW-type成本,衡量两个空间内部结构(由距离矩阵$C_X$和$C_Y$定义)的差异。第二项是W-type成本,衡量跨空间特征(由成本矩阵$C$定义)的差异。$\alpha \in [0, 1]$是平衡这两个成本的权重。
2.2 Moscot的三大创新

Moscot通过三大设计原则克服了现有OT工具的局限性:
- 多模态 (Multimodality):moscot通过在计算成本/距离时使用多模态数据的联合表示来实现这一点。例如,对于RNA和ATAC数据,作者可以将其分别投影到各自的低维空间,然后将这两个空间拼接起来,在这个联合空间中计算细胞间的距离。这使得OT的求解过程能够同时利用来自多个模态的信息。
- 可扩展性 (Scalability):作者通过工程和方法论两方面的创新来解决性能瓶颈。
- 工程优化:moscot基于JAX框架下的OTT库,支持即时编译(just-in-time compilation)、GPU加速和成本矩阵的在线计算(on-the-fly evaluation)。在线计算避免了在内存中存储巨大的成本矩阵($N \times M$),使内存复杂度从二次方降为线性,从而可以在GPU上处理更大的数据集。
- 方法论创新:对于图谱级别的超大数据集,作者引入了对耦合矩阵$P$的low-rank约束。这一近似方法可以将W-type、GW-type和FGW-type OT问题的时间和内存复杂度都降低到线性级别,从而实现了对百万级细胞数据集的分析。
- 统一框架 (Unified Framework):moscot为时间、空间和时空问题提供了一致的API,并与scverse生态系统(如AnnData和scanpy)无缝集成。这使得用户可以方便地在不同分析任务之间切换,并极大地简化了新方法的开发和应用。
3. 实验分析
作者通过四个复杂的生物学应用,全面展示了moscot的性能和多功能性。
实验一:重构图谱规模的小鼠胚胎发育轨迹
作者将moscot.time应用于一个包含近170万个细胞、横跨20个时间点的小鼠胚胎发育图谱。
- 图a:展示了该小鼠胚胎发育图谱的示意图,这是一个规模巨大、时间跨度长的数据集。
- 图b:展示了moscot.time与经典方法WOT的可扩展性对比。
- 上图(内存):WOT在处理超过7.5万个细胞时就耗尽了服务器内存。而moscot.time(包括默认和low-rank版本)的内存消耗呈线性增长,可以在普通笔记本电脑上处理超过27.5万个细胞的数据。
- 下图(时间):在GPU上,moscot.time的计算速度远快于只能在CPU上运行的WOT。当细胞数超过7.5万时,low-rank版本的moscot比默认版本更快。
- 图c:展示了moscot.time与为该数据集专门设计的TOME方法的准确性比较。在预测生发层转换和策划的细胞类型转换方面,moscot.time的准确性与TOME相当,甚至在某些阶段更优。
- 图d:展示了E8.0-E8.25时间对的UMAP图,标示了不同的细胞类型,是后续分析的基础。
- 图e:比较了moscot.time和clTOME(TOME的细胞级版本)预测的细胞生长率。clTOME预测了超过19%的细胞凋亡,这对于胚胎发育来说是不切实际的。而moscot.time预测的生长率更为真实,并且可以根据生物学先验进行调整。
- 图f:展示了使用moscot.time计算的E8.25第一心区细胞的祖先概率(左图),以及已知驱动基因(Tbx5, Nkx2-5, Tnnt2)的表达水平(右图),二者在空间上高度一致。
- 图g:量化了图f中的相关性,moscot.time预测的祖先概率与驱动基因表达的Spearman’s相关性显著高于clTOME。
- 图h:将该分析推广到其他三个细胞类型,结果表明moscot.time在预测驱动基因相关性方面持续优于clTOME。

实验二:空间样本的映射与对齐
作者展示了moscot在处理空间转录组学数据上的两个核心应用:空间映射和空间对齐。
- 图a:展示了将多模态单细胞参考数据(如CITE-seq)映射到空间数据集的示意图。
- 图b:在一个包含12个不同技术生成的数据集的基准测试中,moscot在预测空间基因表达方面的准确性持续优于Tangram和gimVI。结果还表明,moscot能够有效利用基因表达和物理空间之间的关联(spatial correspondence)。
- 图c-f:展示了moscot在多模态空间映射上的一个复杂应用:将小鼠肝脏的CITE-seq数据(含RNA和蛋白质)映射到高分辨率的MERSCOPE空间数据上。
- 图c:显示了从CITE-seq数据映射到空间切片上的细胞类型注释,并标出了中央静脉(CV)和门静脉(PV)。
- 图d:显示了空间数据中已测量的标志物基因(Vwf和Axin2),用于识别血管和CV。
- 图e:利用moscot成功预测了空间数据中未测量的PV特异性标志物(Adgrg6和Gja5)的表达,从而清晰地识别出PV区域。
- 图f:成功预测了Kupffer细胞的标志蛋白(folate receptor β)的空间分布(上图),并确认了Kupffer细胞和内皮细胞的空间定位(下图),完整地刻画了肝小叶的分区结构。
- 图g-i:展示了moscot在对齐大规模空间数据上的能力。
- 图g:是对齐多个空间切片到公共坐标系的示意图。
- 图h, i:分别展示了两个相邻的小鼠大脑冠状切片。对齐前(左侧batch图),不同切片间的结构有偏差;对齐后,标志物基因Slc17a7的表达模式(右图)在两个切片间实现了完美匹配,证明了对齐的准确性。

实验三:描绘小鼠时空发育图谱
作者引入了moscot.spatiotemporal,一种结合了时间和空间信息的全新轨迹推断方法,并将其应用于小鼠胚胎发生的MOSTA时空图谱。
- 图a:展示了时空轨迹推断的示意图,即在连接不同时间点的细胞时,同时考虑其基因表达和空间位置的相似性。
- 图b:在预测细胞类型转换的准确性上,moscot.spatiotemporal(蓝色)的表现显著优于只考虑时间的moscot.time(橙色)和TOME(绿色),证明了整合空间信息的重要性。
- 图c:可视化了心脏细胞在连续时间点间的时空映射,清晰地展示了心脏区域的发育和形态变化。
- 图d:通过与CellRank 2的结合,moscot识别出了心脏发育谱系的已知驱动基因,如转录因子Tbx20和心肌蛋白Myl7。
- 图e:展示了moscot的一项强大应用:将E16.5时间点高分辨率的大脑细胞类型注释,成功地“传递”回了更早的时间点(E13.5-E15.5),为这些早期数据提供了精细的注释。
- 图f:通过计算基因表达与神经元/成纤维细胞命运概率的相关性,识别出了各自谱系的关键驱动基因。
- 图g:在空间上可视化了神经元谱系的两个驱动基因Neurod2和Sox11的表达模式,展示了它们在发育中的大脑区域的特异性分布。

实验四:解析小鼠胰腺发育的谱系关系
作者利用moscot分析了一个新生成的胰腺发育多组学(snRNA + ATAC)数据集,以解析delta和epsilon细胞的复杂谱系。
- 图a-c:展示了实验设计和数据集概览。
- 图a:实验流程示意图,通过FACS富集Ngn3+内分泌祖细胞,并进行多组学测序。
- 图b和c:多模态UMAP图展示了不同时间点(E14.5, E15.5, E16.5)的细胞分布和详细的细胞类型注释。
- 图d:通过moscot.time计算的E14.5细胞的后代概率热图。结果显示,大多数细胞类型转换与已知文献报道一致,验证了模型的可靠性。
- 图e:聚焦于内分泌谱系,moscot预测的祖先细胞轨迹显示,epsilon细胞和delta细胞都起源于相似的Ngn3High祖细胞状态。
- 图f:桑基图(Sankey diagram)直观地展示了细胞类型间的转换流。结果确认了epsilon细胞可以成熟为alpha细胞,并且大部分epsilon细胞和一部分Fev+ delta细胞共享一个名为“epsilon progenitors”的共同祖先群。
- 图g:细胞类型间的ATAC谱相似性分析。结果显示,epsilon progenitors, Fev+ delta细胞, epsilon细胞和delta细胞在染色质可及性上高度相似,从表观遗传层面支持了它们共享相似祖先的假设。
- 图h, i:实验验证。
- moscot的驱动基因分析将NEUROD2确定为epsilon祖细胞群的一个关键转录因子。
- 为了验证这一预测,作者在人iPS细胞中进行了NEUROD2基因敲除(KO)。
- 图h(免疫荧光)和图i(qPCR)的结果一致表明,与对照组相比,NEUROD2 KO导致表达ghrelin(epsilon细胞标志物)的细胞数量和GHRL mRNA水平均显著下降,从而在功能上证实了NEUROD2在epsilon细胞分化中的重要作用。
