用于单细胞RNA测序和ATAC测序数据多视角分析的深度生成模型.

0. TL; DR

scMVP (single-cell Multi-View Profiler)是一个专为处理配对多组学数据设计的非对称深度生成模型。scMVP采用高斯混合模型作为潜在空间的先验分布,为ATAC采用基于Transformer自注意力机制的编码器,为RNA采用掩码注意力编码器。

在多个真实的联合分析数据集上(包括SNARE-seq, sci-CAR, Paired-seq, SHARE-seq, 10X Multiome),scMVP在细胞聚类准确性、数据插补质量以及下游的顺式调控元件预测等任务上,均展现出超越Seurat WNN、scVI、cisTopic等多种主流方法的性能。

1. 背景介绍

单细胞多组学技术使我们在同一个细胞内,既能看到它的基因在说什么(scRNA-seq),又能看到它的基因调控开关状态(scATAC-seq)。这种联合分析(joint profiling)技术,如SNARE-seq, SHARE-seq以及商业化的10x Multiome,为我们直接关联染色质状态与基因表达、揭示基因调控网络提供了前所未有的机会。

然而挑战也同样严峻:

  1. 数据质量的妥协:为了同时测量两种模态,现有的联合分析技术往往不得不在数据质量上做出妥协。相比于成熟的单模态测序,联合分析数据的通量通常更低,数据也更加稀疏(dropout更严重)。
  2. 异构数据的整合难题:即便是来自同一个细胞,scRNA-seqscATAC-seq也是两种截然不同的数据类型。前者是数万个基因的表达计数,后者是数十万个基因组区域的开放信号。如何将这两种特征空间完全不同、数据分布各异的数据,有效地融合到一个统一的框架中,是一个巨大的计算挑战。

现有的分析策略往往存在局限:

因此需要一个专门为联合分析数据设计的、能够同时解决数据稀疏性和异构性两大难题,并能一体化地完成数据整合与插补的全新计算框架。scMVP 通过一个非对称的、多视角的深度生成模型,旨在充分挖掘联合分析数据的潜力,为下游分析提供高质量的联合嵌入和修复后的数据。

2. scMVP 模型

scMVP的核心是一个非对称的多模态变分自编码器(VAE),它通过引入高斯混合模型(GMM)先验、非对称的注意力编码器和循环一致性约束,实现了对联合分析数据的高效建模。

标准VAE通常假设潜在空间$z$服从一个简单的标准高斯分布。然而,单细胞数据往往具有明显的聚类结构(即不同的细胞类型)。为了更好地捕捉这种结构,scMVP采用了高斯混合模型(GMM)作为潜在空间$z$的先验分布:

\[p(c) = \prod_{k=1}^K \pi_k^{c_k} \\ p(z|c) = \mathcal{N}(z | \mu_c, \sigma_c I)\]

其中,$c$是代表细胞所属簇(component)的离散变量,$K$是预设的簇数量。这个设计的直觉是,每个细胞都来自$K$个潜在的细胞类型中的一个,而每个细胞类型在潜在空间中都对应一个高斯分布。

scMVP的整体框架是一个多视角(multi-view)VAE,它试图从一个共享的潜在嵌入$z$出发,同时重构出scRNA-seq数据$x$和scATAC-seq数据$y$。其优化的目标是最大化证据下界(ELBO):

\[L_{elbo}(x, y) = \mathbb{E}_{q(z,c|x,y)} \left[ \log \frac{p(x,y,z,c)}{q(z,c|x,y)} \right]\]

其中,$q(z,c|x,y)$是由编码器网络学习的后验分布,$p(x,y,z,c)$是整个生成模型。

scMVP认识到scRNA-seqscATAC-seq数据的特性差异,因此为它们设计了非对称的编码器结构,以最高效的方式提取各自的特征。

\[\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) \\ = \text{softmax}\left(\frac{QW_i^Q (KW_i^K)^T}{\sqrt{d_k}}\right) VW_i^V\]

Transformer的自注意力机制能够计算任意两个peaks之间的关联权重,从而学习到一个全局的、上下文感知的特征表示。

这两个非对称的编码器分支的输出,最终会被拼接在一起,共同送入一个联合嵌入层,以推断出共享潜在变量$z$的分布参数(均值和方差)。

scMVP的解码器同样是双通道的,分别负责从共享的潜在嵌入$z$重构出scRNA-seqscATAC-seq数据。scRNA-seq数据$x$被建模为负二项分布(Negative Binomial, NB),这能很好地处理过离散(over-dispersion)的计数数据。scATAC-seq数据$y$(经过TF-IDF转换)被建模为零膨胀泊松分布(Zero-Inflated Poisson, ZIP),以同时处理大量的零值和非零计数值。

这是解码器部分的一个精巧设计。在解码时,除了输入潜在嵌入$z$,解码器还会接收一个额外的引导信号——细胞属于每个簇$c$的后验概率 $p(c|z)$。这个概率向量会通过一个注意力模块,来加权解码器的输出。这个设计的直觉是,不同细胞类型的调控逻辑是不同的。通过引入簇(细胞类型)的引导信息,解码器可以学习到细胞类型特异性的生成模式,从而实现更精准的重构。

为了保证整合的质量,防止模型在学习过程中出现模式坍塌(即只学会了对齐一部分细胞,而忽略了其他),scMVP引入了一个类似CycleGAN循环一致性损失(cycle consistency loss)

  1. 首先,利用训练到一半的模型,从共享嵌入$z$中解码,生成插补后的数据 $\hat{x}$ 和 $\hat{y}$。
  2. 将这些插补后的数据 $\hat{x}$ 和 $\hat{y}$,再次送入两个独立的、单模态的编码器(结构与主编码器的对应通道相同),得到插补后嵌入 $q(z|\hat{x})$ 和 $q(z|\hat{y})$。
  3. 这些插补后嵌入的分布,必须与从原始数据编码得到的原始嵌入 $q(z|x,y)$ 的分布保持一致。这种一致性通过最小化它们之间的KL散度来实现。
\[L_{consistency} = D_{KL}(q(z|x,y) \| q(z|\hat{x})) + D_{KL}(q(z|x,y) \| q(z|\hat{y}))\]

这个循环一致性约束像一个强大的正则项,它确保了从原始数据空间到潜在空间,再到插补数据空间,最后再回到潜在空间的整个环路是闭合且一致的。这使得嵌入空间对两种模态的语义理解更加统一和鲁棒。

3. 实验分析

作者在多个来自不同联合分析技术平台(sci-CAR, Paired-seq, SNARE-seq, SHARE-seq, 10X Multiome)的真实数据集上,对scMVP的性能进行了全面评估。

3.1 实验一:数据插补有效缓解稀疏性

作者首先评估了scMVP的插补(去噪)能力,这是处理稀疏联合分析数据的基础。

作者将插补后的单细胞基因表达谱与对应的bulk RNA-seq数据进行比较。结果显示,经过scMVP插补后的细胞,其表达谱与bulk数据的相关性显著高于原始的稀疏数据,也优于另一个深度生成模型scVI的插补结果。

作者将插补后的scATAC-seq数据与对应的bulk ATAC-seq/DNase-seq数据进行比较。结果显示,scMVP插补后的细胞,能够多识别出数倍于原始数据的、在bulk数据中得到验证的真实开放区域(peaks),并且信噪比(真峰/总峰比例)保持在很高水平。

这些结果有力地证明,scMVP的插补功能能够有效修复dropout,恢复真实的生物学信号,为下游分析打下坚实基础。

3.2 实验二:联合嵌入实现精准细胞聚类

作者比较了scMVP与多种SOTA方法(包括单模态工具、通用整合工具和专门的配对数据整合工具如Seurat WNN)在细胞聚类任务上的表现。

在多个包含混合细胞系的基准数据集上,scMVP在联合嵌入空间中进行聚类的ARI(兰德调整指数)得分,始终处于顶尖水平,与表现最好的单模态方法或WNN相当,并显著优于MOFA+, scAI, MultiVI, Cobolt等一系列通用整合工具。

Paired-seq数据中,其他方法都只能分出两个细胞系,而scMVPcisTopicUMAP图都清晰地分出了第三个细胞簇。进一步分析发现,这个新簇的细胞具有低RNA表达、高ATAC开放度的独特性状,这可能是scMVP通过整合双模态信息才能识别出的一种特殊的细胞状态。

3.3 实验三:在真实复杂组织数据中的应用

作者进一步在来自小鼠大脑皮层、人类PBMC、人类淋巴结和小鼠皮肤等更复杂的真实组织数据集上验证了scMVP的性能。

在这些更具挑战性的数据集上,scMVP依然保持了与SOTA方法相当甚至更优的聚类准确率(图a)。特别是在信噪比更低的SNARE-seq P0大脑数据上,许多通用整合工具性能不佳,而scMVPWNN依然表现出色。

基于scMVP插补后的RNA数据找到的差异表达基因(DEGs),与原始文献报道的DEGs具有很高的重叠度,优于scVI的插补结果(图b)。

利用scMVP插补后的数据,通过CiceroLASSO等方法预测的CRE(如启动子和增强子),在H3K4me3H3K27ac等活性组蛋白修饰上的富集程度,显著高于使用原始数据预测的结果(图c, d)。这表明scMVP的插补去除了噪声,使得调控信号更清晰,从而能推断出更可靠的调控关系。

在包含连续分化过程的数据集上(如大脑发育、皮肤发育),基于scMVP的联合嵌入推断出的细胞分化轨迹,比仅使用单一模态(无论是RNA还是ATAC)推断出的轨迹更清晰、更符合生物学预期。这证明了scMVP的联合嵌入确实融合了两种模态的优势,能够更好地刻画细胞的动态变化过程。