单细胞多组学数据集成分析的混合专家深度生成模型.

0. TL; DR

scMM (single-cell Multi-Modal)是一个基于混合专家(Mixture-of-Experts, MoE)深度生成模型的框架,旨在实现可解释的单细胞多组学数据整合与跨模态生成。scMM为每个模态学习一个独立的后验分布,然后通过等权重混合的方式,来近似联合后验分布。其不仅能重构自身的模态,还能从一个模态的潜在表征中,重构出所有其他模态的数据。

在对CITE-seqSHARE-seq等真实数据集的分析中,scMM不仅在聚类性能上优于Seurat等传统方法,还成功地发现了先前被忽略的T细胞和单核细胞亚群。scMM生成的跨模态数据质量很高,能够显著提升现有整合工具(如LIGER, Seurat)在整合非配对数据时的性能。

1. 第一章:背景介绍

单细胞多组学技术,如CITE-seq(同时测量RNA和表面蛋白)和SHARE-seq(同时测量RNA和染色质可及性),能够更深入地理解细胞的复杂状态和不同分子层面间的相互作用。然而如何从这些复杂的高维多组学数据中推断出联合的细胞表征,并学习不同模态之间的内在联系,仍然是一个巨大的挑战。

模型需要从这些异构的高维数据中,学习一个低维的、能够融合所有模态信息的联合嵌入(joint representation)。这个嵌入是所有下游分析(如细胞聚类、轨迹推断)的基础,它必须能够准确地捕捉到由多模态共同定义的、更精细的细胞状态。一个理想的模型,应该能够学习到不同模态间调控关系,并利用它们来实现精准的跨模态预测。

现有的方法在应对这些挑战时,或多或少存在一些局限性:基于线性模型的方法 (如Seurat) 难以捕捉单细胞数据中复杂的非线性结构。基于VAE的方法 (如scMVAE, totalVI)存在以下问题:

scMM是一个专为可解释的联合表征学习和跨模态生成而设计的全新深度生成模型框架。

2. scMM 模型

scMM是一个基于混合专家多模态变分自编码器(Mixture-of-Experts Multimodal VAE, MMVAE)的框架,它通过为每个模态构建独立的编码器-解码器对,并利用伪细胞生成策略,实现了可解释的整合与生成。

scMM为每一种待整合的模态(以RNAATAC两种模态为例)都构建一个独立的VAE。对于每个模态$m$($m=1, 2$),其专属的编码器(一个多层神经网络)会将其输入数据 $x_m$ 编码为一个低维的潜在嵌入 $z_m$。假设$z_m$的后验分布 $q_{\phi_m}(z|x_m)$ 为高斯分布。相应的解码器$p_{\theta_m}(x_m|z)$则负责从潜在嵌入$z$中,重构出原始数据 $x_m$。

scMM为不同模态的数据定制了符合其统计特性的概率分布:

在多模态VAE中,一个核心的难题是如何计算联合后验分布 $q_{\Phi}(z|x_1, x_2)$,即在同时观测到两种模态数据时,对潜在变量$z$的推断。scMM采用了混合专家(Mixture-of-Experts, MoE)的思想来近似这个联合后验:它假设联合后验是所有单个模态后验的等权重混合。

\[q_{\Phi}(z|x_1, x_2) = \sum_{m=1}^2 \frac{1}{2} q_{\phi_m}(z|x_m)\]

这个设计的直觉是,关于细胞真实状态$z$的最终判断,是综合了来自RNA的专家意见和来自ATAC的专家意见的结果。

基于MoE的近似,整个模型的证据下界(ELBO)可以被分解为对每个专家的期望求和:

\[\text{ELBO} = \frac{1}{M} \sum_m \mathbb{E}_{z_m \sim q_{\phi_m}(z|x_m)} [\log p_\Theta(x_{1:M}|z_m)] - KL[q_{\phi_m}(z|x_m) \| p(z)]\]

公式中的关键部分 \(\mathbb{E}_{z_m \sim q_{\phi_m}(z\|x_m)} [\log p_\Theta(x_{1:M}\|z_m)]\) 含义是,从单个模态$m$的编码器得到的潜在嵌入 $z_m$ ,需要被用来重构所有模态的数据( $x_{1:M}$ )。

这个训练机制是scMM能够实现跨模态生成的根本原因。它迫使每个模态的编码器都必须学习到一个足够通用的潜在表征,这个表征不仅要能恢复自身模态的信息,还要蕴含足够的信息去生成其他模态。

scMM通过一种伪细胞生成(pseudocell generation)策略进行模型可解释性分析。首先固定潜在空间中的$D-1$个维度为0,然后只让一个维度(例如第$d$维)在一个合理的范围内(如-5sd到+5sd)进行线性变化。对于每一个变化点,都得到了一个潜在向量,并用解码器来生成对应的伪细胞的高维表达谱。这样就为每个潜在维度$d$都生成了一系列伪细胞。通过计算这些伪细胞的表达谱与所有基因/peaks的相关性(如Spearman相关性),就能找到与这个潜在维度最强相关的一组多组学特征。这一组特征,就构成了与该潜在维度相关联的多组学调控程序(multimodal regulatory program),从而为这个抽象的潜在维度赋予了清晰、可解释的生物学含义。

3. 实验分析

作者在两个来自不同技术平台(CITE-seqSHARE-seq)的真实多组学数据集上,对scMM的性能进行了全面的评估。

3.1 实验一:CITE-seq数据整合与亚群发现

作者首先在一个包含超过16万个PBMC细胞的CITE-seq数据集上应用了scMM

scMM学习到的联合嵌入,能够将PBMC中的主要细胞类型清晰地分离开。更重要的是,它发现了Seurat WNN分析未能揭示的精细异质性。例如,scMMCD4+CD8+ T细胞各自都分为了两个独立的亚群(图D),并且进一步分析发现,这两个亚群在CD30等T细胞激活相关的表面蛋白上存在显著差异。类似地,scMM还发现了CD14+单核细胞内部的异质性。

作者展示了scMM的伪细胞生成策略。例如,潜在维度1被发现与B细胞和浆细胞的特征高度相关。与之强负相关的基因包括免疫球蛋白(Iglv1-44)、趋化因子(Cxcr5)等,强负相关的蛋白则包括CD19, CD20等经典的B细胞表面marker(图E, F)。这有力地证明了scMM潜在空间的可解释性。

3.2 实验二:跨模态生成与预测

作者测试了scMM从一种模态预测另一种模态的能力。使用一个PBMC CITE-seq数据集训练scMM,然后用它来为一个完全独立的、只有scRNA-seq数据的BMNC(骨髓单个核细胞)数据集,预测其表面蛋白的表达。

scMM成功地将BMNC数据嵌入到了PBMC的潜在空间中,并正确地识别出了BMNC中富含的、在PBMC中稀少的造血干/祖细胞(HSPC,高表达CD34)(图A, B)。

SOTA方法Seurat相比,scMM预测的蛋白表达谱与真实值的误差(SSE)更低(图D)。更重要的是,对于那些在BMNC数据中并未测量的蛋白,scMM也能进行预测。例如它成功地为B细胞预测出了CD72, IgD等一系列正确的B细胞marker(图E)。

3.3 实验三:SHARE-seq数据整合与调控推断

作者进一步将scMM应用于小鼠皮肤的SHARE-seq数据,以测试其处理转录组和表观组的能力。

scMM能够高质量地实现RNAATAC之间的双向生成。从ATAC生成RNA:生成的RNA表达谱与真实的表达谱在热图上展现出高度相似的模式(图A, B)。

RNA生成ATAC:生成的ATAC信号能够准确地捕捉到开放/关闭的状态,并且在关键marker基因(如Lef1, Krt1)的调控区域,重构出了细胞类型特异性的peak模式(图A, D)。

利用scMMATAC数据生成的高质量伪RNA数据,可以显著提升现有整合工具(如LIGER, Seurat)在整合非配对scRNA-seqscATAC-seq数据时的性能。与使用传统的基因活性矩阵(GAM)相比,使用scMM生成的伪RNA数据进行整合,得到的批次混合熵更高,即整合效果更好(图C, D)。

通过伪细胞生成策略,成功地为SHARE-seq数据的潜在维度进行了注释。例如,潜在维度9被发现与细胞周期高度相关,其关联的基因富集了Stil, Brca1等细胞周期蛋白,其关联的peaks则富集了TP63等关键转录因子的基序(图D-F)。