Cobolt: 多模态单细胞测序数据的集成分析.

0. TL; DR

Cobolt 是一个整合配对多组学数据与独立的单模态数据集的框架。Cobolt的核心是一个基于多模态变分自编码器(Multimodal Variational Autoencoder, MVAE)的概率生成模型,为所有细胞学习一个共享的、低维的潜在表征$z$。受潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)模型的启发,假设每个细胞的分子谱都是由$K$个潜在的生物学主题线性组合而成。

在对小鼠大脑皮层和人类PBMC的整合分析中,Cobolt能够在分析纯多组学数据时,比单一模态分析或其他联合分析方法更好地保留两种模态的特有生物学信息;在整合混合数据集时,生成一个高质量的、不同来源和模态的细胞被完美混合的联合嵌入;通过整合,实现跨模态的信息传递。

1. 背景介绍

新兴的单细胞多组学技术能够同时测量同一个细胞的多种分子特征,然而如何有效分析这些配对的多组学数据,并将其与更常见的、更大规模的非配对单模态数据进行整合,仍然是一个巨大的挑战。一个联合计算框架必须能够:

  1. 有效分析和整合纯粹的多组学数据。
  2. 能够将多组学数据与独立的单模态数据(如一个纯scRNA-seq数据集和一个纯scATAC-seq数据集)无缝地整合在一起。
  3. 最终为所有细胞(无论其来源或拥有的模态)生成一个统一的、可比较的、能够用于下游所有分析(如聚类、轨迹推断)的共享细胞表征。

现有的方法大多无法满足这一全面的需求。例如,MOFA2主要处理配对数据,而BABELscMM虽然能利用配对数据进行模态间的翻译,但它们不能将单模态数据也整合到同一个分析框架中。本文提供了一个统一的、概率性的框架,旨在实现多组学数据与单模态数据的全面整合,为更大规模的生物学发现铺平道路。

2. Cobolt 模型

Cobolt的核心是一个基于多模态变分自编码器(Multimodal Variational Autoencoder, MVAE)的层次化贝叶斯生成模型。该模型的设计灵感来源于经典的潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型。

2.1 层次化生成模型

Cobolt假设细胞的分子谱是由一系列潜在的生物学主题或类别组合而成。模型假设存在$K$个潜在的生物学主题。对于每个细胞$c$,都存在一个共享的、与模态无关的潜在变量 $\theta_c \in [0, 1]^K$。$\theta_c$是一个概率向量,其第$k$个元素表示第$k$个主题在该细胞中的活跃程度或占比。$\theta_c$代表了细胞内在的、核心的生物学状态。

每个主题在不同的模态中会表现为不同的特征分布。例如,同一个T细胞激活主题,在scRNA-seq模态中表现为一系列免疫相关基因的高表达,而在scATAC-seq模态中则表现为这些基因调控区域的高度开放。模型为每个模态$m$学习一个主题-特征矩阵 $B^{(m)}$。其中,矩阵的第$k$列代表第$k$个主题在该模态下的特征分布(即哪些基因/peaks会被激活)。

一个细胞$c$在模态$m$下的完整表达谱,是由其细胞状态 $\theta_c$ 和该模态的主题-特征分布 $B^{(m)}$ 共同决定的。其特征概率 $\pi_c^{(m)}$ 可以通过以下方式生成:

\[\pi_c^{(m)} = \sigma(B^{(m)}) \theta_c\]

其中 $\sigma$ 是softmax函数。最终观测到的计数数据 $x_c^{(m)}$ 被建模为从以 $\pi_c^{(m)}$ 为参数的多项分布中采样得到。

为了处理批次效应,模型在计算特征概率 $\pi_c^{(m)}$ 时,可以引入批次特异性的调整,从而在生成数据的层面就实现批次校正。

2.2 基于MVAE的模型推断

为了在实际中推断出上述生成模型的各个参数,Cobolt采用了多模态变分自编码器(MVAE)的框架。

标准的LDA模型中,$\theta_c$服从狄利克雷(Dirichlet)分布。为了便于使用VAE进行梯度优化,Cobolt采用了ProdLDA中提出的拉普拉斯近似:引入一个服从标准高斯分布先验的隐变量 $z_c$,然后通过softmax变换得到 $\theta_c$:

\[z_c \sim \mathcal{N}(0, I), \quad \theta_c = \text{softmax}(z_c)\]

因此最终的目标是为每个细胞推断出其在$K$维高斯空间中的坐标$z$。

MVAE框架的核心思想是可以从任何可用的模态子集来推断共享的潜在变量$z$。为每一种可能的模态组合都训练一个编码器。例如,对于RNAATAC两种模态,我们需要训练三个编码器:

为每一种模态都训练一个解码器,负责从潜在变量$z$中重构该模态的数据。例如,$p(X^{mRNA} | z)$ 和 $p(X^{ATAC} | z)$。

所有这些编码器和解码器在一个统一的VAE框架下进行联合训练,共同优化ELBO(证据下界)损失函数。

MVAE框架训练完成后,拥有了一系列编码器。然而,由于不同编码器(如只用RNA的编码器和只用ATAC的编码器)在训练时看到的信息不同,它们推断出的$z$在分布上可能存在细微的、系统性的偏差。为了校正这种偏差,Cobolt引入了一个迁移学习的步骤:

通过这个过程,Cobolt最终为数据集中的每一个细胞(无论其来源或模态)都生成了一个统一的、可比较的、经过校正的低维表征$z$,实现了真正的全面整合。

3. 实验分析

作者在两个具有挑战性的真实场景中,展示了Cobolt的性能:一是纯多组学数据的分析,二是多组学与单模态数据的混合整合。

3.1 实验一:纯多组学数据分析(SNARE-seq)

作者首先仅使用SNARE-seq(配对的scRNA-seqscATAC-seq)数据,来评估Cobolt作为联合分析工具的性能,并与MOFA2, scMM, BABEL等方法进行比较。

作者发现,单独分析scRNA-seqscATAC-seq都无法完整地揭示所有的细胞亚群。例如,一些非神经元细胞在RNA上分群清晰,但在ATAC上混杂;而一些神经元亚型(如L6 Car12)则在ATAC上可分,但在RNA上混杂。Cobolt的联合分析则能够同时保留这两种模态的特有信息,将所有这些亚群都清晰地分离开。

作者比较了不同方法生成的联合嵌入空间。结果显示Cobolt能够最好地保留两种模态的聚类结构。例如,一个在RNA上可分的L6亚群,在scMM的嵌入中几乎无法区分;而两个在ATAC上可分的CGE/Pvalb亚群,在MOFA2的嵌入中则被错误地混合(图A, B高亮区域)。

在定量的轮廓宽度(silhouette width)评估中,Cobolt在两种模态的聚类结构上都取得了最高分,证明其联合嵌入最能兼顾和保留两种模态的生物学信息。

3.2 实验二:整合多组学与单模态数据

作者整合了来自三个不同来源的小鼠大脑皮层数据:一个SNARE-seq(多组学),一个纯scRNA-seq,一个纯scATAC-seq

Cobolt成功地将这三个来源和模态都不同的数据集整合到了一个统一的UMAP空间中。细胞不再按数据集来源聚集,而是按其真实的生物学身份(细胞类型)聚集在一起,实现了完美的混合(图A, B)。

值得注意的是,不同的数据集中包含了各自特有的细胞类型(如scATAC-seq中独有的小胶质细胞)。Cobolt在整合时,能够正确地将这些非共享的细胞类型识别为独立的簇,而没有将它们与其它细胞错误地混合,展现了其处理细胞类型组成不匹配数据集的能力。

通过整合可以利用一个数据集中更精细的注释,来帮助解析另一个数据集。例如,scRNA-seq数据将CGE中间神经元分为了三个亚型(Lamp5, Vip, Sncg),而scATAC-seq数据中它们是混合的。在Cobolt的联合嵌入空间中,scATAC-seqCGE细胞也相应地分成了两个子簇,并且通过marker基因表达验证,这两个子簇与scRNA-seq的亚型划分(Lamp5/Sncg vs. Vip)完美对应。

作者设计了一个基准测试,来比较不同方法在整合一个配对数据集和两个单模态数据集时的性能。核心指标是,对于那些被视为单模态的细胞,它们在整合后的空间中与其真实的另一半的距离有多近。结果显示,Cobolt的性能远超LIGER, Signac, scMM和BABEL。这证明了Cobolt通过MVAE和迁移学习的策略,能够最有效地利用配对数据的信息来指导单模态数据的整合。