用于单细胞RNA测序和ATAC测序数据多视角分析的深度生成模型.
0. TL; DR
scMVP (single-cell Multi-View Profiler)是一个专为处理配对多组学数据设计的非对称深度生成模型。scMVP采用高斯混合模型作为潜在空间的先验分布,为ATAC采用基于Transformer自注意力机制的编码器,为RNA采用掩码注意力编码器。
在多个真实的联合分析数据集上(包括SNARE-seq, sci-CAR, Paired-seq, SHARE-seq, 10X Multiome),scMVP在细胞聚类准确性、数据插补质量以及下游的顺式调控元件预测等任务上,均展现出超越Seurat WNN、scVI、cisTopic等多种主流方法的性能。
1. 背景介绍
单细胞多组学技术使我们在同一个细胞内,既能看到它的基因在说什么(scRNA-seq),又能看到它的基因调控开关状态(scATAC-seq)。这种联合分析(joint profiling)技术,如SNARE-seq, SHARE-seq以及商业化的10x Multiome,为我们直接关联染色质状态与基因表达、揭示基因调控网络提供了前所未有的机会。
然而挑战也同样严峻:
- 数据质量的妥协:为了同时测量两种模态,现有的联合分析技术往往不得不在数据质量上做出妥协。相比于成熟的单模态测序,联合分析数据的通量通常更低,数据也更加稀疏(dropout更严重)。
- 异构数据的整合难题:即便是来自同一个细胞,scRNA-seq和scATAC-seq也是两种截然不同的数据类型。前者是数万个基因的表达计数,后者是数十万个基因组区域的开放信号。如何将这两种特征空间完全不同、数据分布各异的数据,有效地融合到一个统一的框架中,是一个巨大的计算挑战。
现有的分析策略往往存在局限:
- 独立分析再整合:分别对scRNA-seq和scATAC-seq进行聚类,然后尝试根据相似的细胞簇进行连连看。这种方法简单,但忽略了两种模态在单个细胞内的直接关联。
- 依赖共享特征的整合:像Seurat WNN这样的方法,通过构建加权近邻图来整合,但可能对数据的质量和模态间的相似性有较高要求。
- 为非配对数据设计的通用整合工具:如MultiVI, Cobolt等,它们虽然强大,但其对称的VAE架构可能没有充分考虑到两种模态的内在差异,且在处理联合分析数据时,可能没有最大化利用细胞配对这一宝贵信息。
因此需要一个专门为联合分析数据设计的、能够同时解决数据稀疏性和异构性两大难题,并能一体化地完成数据整合与插补的全新计算框架。scMVP 通过一个非对称的、多视角的深度生成模型,旨在充分挖掘联合分析数据的潜力,为下游分析提供高质量的联合嵌入和修复后的数据。
2. scMVP 模型
scMVP的核心是一个非对称的多模态变分自编码器(VAE),它通过引入高斯混合模型(GMM)先验、非对称的注意力编码器和循环一致性约束,实现了对联合分析数据的高效建模。

标准VAE通常假设潜在空间$z$服从一个简单的标准高斯分布。然而,单细胞数据往往具有明显的聚类结构(即不同的细胞类型)。为了更好地捕捉这种结构,scMVP采用了高斯混合模型(GMM)作为潜在空间$z$的先验分布:
\[p(c) = \prod_{k=1}^K \pi_k^{c_k} \\ p(z|c) = \mathcal{N}(z | \mu_c, \sigma_c I)\]其中,$c$是代表细胞所属簇(component)的离散变量,$K$是预设的簇数量。这个设计的直觉是,每个细胞都来自$K$个潜在的细胞类型中的一个,而每个细胞类型在潜在空间中都对应一个高斯分布。
scMVP的整体框架是一个多视角(multi-view)的VAE,它试图从一个共享的潜在嵌入$z$出发,同时重构出scRNA-seq数据$x$和scATAC-seq数据$y$。其优化的目标是最大化证据下界(ELBO):
\[L_{elbo}(x, y) = \mathbb{E}_{q(z,c|x,y)} \left[ \log \frac{p(x,y,z,c)}{q(z,c|x,y)} \right]\]其中,$q(z,c|x,y)$是由编码器网络学习的后验分布,$p(x,y,z,c)$是整个生成模型。
scMVP认识到scRNA-seq和scATAC-seq数据的特性差异,因此为它们设计了非对称的编码器结构,以最高效的方式提取各自的特征。
- scATAC-seq 数据极其高维且稀疏。为了捕捉这种数据中潜在的、跨越很长基因组距离的长程依赖关系,scMVP为其配备了一个基于多头自注意力机制(Multi-Head Self-Attention)的Transformer编码器。
Transformer的自注意力机制能够计算任意两个peaks之间的关联权重,从而学习到一个全局的、上下文感知的特征表示。
- scRNA-seq 数据虽然也稀疏,但维度较低,特征(基因)之间的局部语义更强。因此,scMVP为其配备了一个更轻量级的掩码注意力(Mask Attention)编码器,它能高效地关注到每个细胞中表达量最显著的那些基因,提取关键信息。
这两个非对称的编码器分支的输出,最终会被拼接在一起,共同送入一个联合嵌入层,以推断出共享潜在变量$z$的分布参数(均值和方差)。
scMVP的解码器同样是双通道的,分别负责从共享的潜在嵌入$z$重构出scRNA-seq和scATAC-seq数据。scRNA-seq数据$x$被建模为负二项分布(Negative Binomial, NB),这能很好地处理过离散(over-dispersion)的计数数据。scATAC-seq数据$y$(经过TF-IDF转换)被建模为零膨胀泊松分布(Zero-Inflated Poisson, ZIP),以同时处理大量的零值和非零计数值。
这是解码器部分的一个精巧设计。在解码时,除了输入潜在嵌入$z$,解码器还会接收一个额外的引导信号——细胞属于每个簇$c$的后验概率 $p(c|z)$。这个概率向量会通过一个注意力模块,来加权解码器的输出。这个设计的直觉是,不同细胞类型的调控逻辑是不同的。通过引入簇(细胞类型)的引导信息,解码器可以学习到细胞类型特异性的生成模式,从而实现更精准的重构。
为了保证整合的质量,防止模型在学习过程中出现模式坍塌(即只学会了对齐一部分细胞,而忽略了其他),scMVP引入了一个类似CycleGAN的循环一致性损失(cycle consistency loss)。
- 首先,利用训练到一半的模型,从共享嵌入$z$中解码,生成插补后的数据 $\hat{x}$ 和 $\hat{y}$。
- 将这些插补后的数据 $\hat{x}$ 和 $\hat{y}$,再次送入两个独立的、单模态的编码器(结构与主编码器的对应通道相同),得到插补后嵌入 $q(z|\hat{x})$ 和 $q(z|\hat{y})$。
- 这些插补后嵌入的分布,必须与从原始数据编码得到的原始嵌入 $q(z|x,y)$ 的分布保持一致。这种一致性通过最小化它们之间的KL散度来实现。
这个循环一致性约束像一个强大的正则项,它确保了从原始数据空间到潜在空间,再到插补数据空间,最后再回到潜在空间的整个环路是闭合且一致的。这使得嵌入空间对两种模态的语义理解更加统一和鲁棒。
3. 实验分析
作者在多个来自不同联合分析技术平台(sci-CAR, Paired-seq, SNARE-seq, SHARE-seq, 10X Multiome)的真实数据集上,对scMVP的性能进行了全面评估。
3.1 实验一:数据插补有效缓解稀疏性
作者首先评估了scMVP的插补(去噪)能力,这是处理稀疏联合分析数据的基础。
作者将插补后的单细胞基因表达谱与对应的bulk RNA-seq数据进行比较。结果显示,经过scMVP插补后的细胞,其表达谱与bulk数据的相关性显著高于原始的稀疏数据,也优于另一个深度生成模型scVI的插补结果。

作者将插补后的scATAC-seq数据与对应的bulk ATAC-seq/DNase-seq数据进行比较。结果显示,scMVP插补后的细胞,能够多识别出数倍于原始数据的、在bulk数据中得到验证的真实开放区域(peaks),并且信噪比(真峰/总峰比例)保持在很高水平。

这些结果有力地证明,scMVP的插补功能能够有效修复dropout,恢复真实的生物学信号,为下游分析打下坚实基础。
3.2 实验二:联合嵌入实现精准细胞聚类
作者比较了scMVP与多种SOTA方法(包括单模态工具、通用整合工具和专门的配对数据整合工具如Seurat WNN)在细胞聚类任务上的表现。
在多个包含混合细胞系的基准数据集上,scMVP在联合嵌入空间中进行聚类的ARI(兰德调整指数)得分,始终处于顶尖水平,与表现最好的单模态方法或WNN相当,并显著优于MOFA+, scAI, MultiVI, Cobolt等一系列通用整合工具。

在Paired-seq数据中,其他方法都只能分出两个细胞系,而scMVP和cisTopic的UMAP图都清晰地分出了第三个细胞簇。进一步分析发现,这个新簇的细胞具有低RNA表达、高ATAC开放度的独特性状,这可能是scMVP通过整合双模态信息才能识别出的一种特殊的细胞状态。

3.3 实验三:在真实复杂组织数据中的应用
作者进一步在来自小鼠大脑皮层、人类PBMC、人类淋巴结和小鼠皮肤等更复杂的真实组织数据集上验证了scMVP的性能。
在这些更具挑战性的数据集上,scMVP依然保持了与SOTA方法相当甚至更优的聚类准确率(图a)。特别是在信噪比更低的SNARE-seq P0大脑数据上,许多通用整合工具性能不佳,而scMVP和WNN依然表现出色。
基于scMVP插补后的RNA数据找到的差异表达基因(DEGs),与原始文献报道的DEGs具有很高的重叠度,优于scVI的插补结果(图b)。
利用scMVP插补后的数据,通过Cicero或LASSO等方法预测的CRE(如启动子和增强子),在H3K4me3和H3K27ac等活性组蛋白修饰上的富集程度,显著高于使用原始数据预测的结果(图c, d)。这表明scMVP的插补去除了噪声,使得调控信号更清晰,从而能推断出更可靠的调控关系。

在包含连续分化过程的数据集上(如大脑发育、皮肤发育),基于scMVP的联合嵌入推断出的细胞分化轨迹,比仅使用单一模态(无论是RNA还是ATAC)推断出的轨迹更清晰、更符合生物学预期。这证明了scMVP的联合嵌入确实融合了两种模态的优势,能够更好地刻画细胞的动态变化过程。
