用于单细胞RNA测序和ATAC测序数据多视角分析的深度生成模型.

paper：A deep generative model for multi-view profiling of single-cell RNA-seq and ATAC-seq data

0. TL; DR

scMVP (single-cell Multi-View Profiler)是一个专为处理配对多组学数据设计的非对称深度生成模型。scMVP采用高斯混合模型作为潜在空间的先验分布，为ATAC采用基于Transformer自注意力机制的编码器，为RNA采用掩码注意力编码器。

在多个真实的联合分析数据集上（包括SNARE-seq, sci-CAR, Paired-seq, SHARE-seq, 10X Multiome），scMVP在细胞聚类准确性、数据插补质量以及下游的顺式调控元件预测等任务上，均展现出超越Seurat WNN、scVI、cisTopic等多种主流方法的性能。

1. 背景介绍

单细胞多组学技术使我们在同一个细胞内，既能看到它的基因在说什么（scRNA-seq），又能看到它的基因调控开关状态（scATAC-seq）。这种联合分析（joint profiling）技术，如SNARE-seq, SHARE-seq以及商业化的10x Multiome，为我们直接关联染色质状态与基因表达、揭示基因调控网络提供了前所未有的机会。

然而挑战也同样严峻：

数据质量的妥协：为了同时测量两种模态，现有的联合分析技术往往不得不在数据质量上做出妥协。相比于成熟的单模态测序，联合分析数据的通量通常更低，数据也更加稀疏（dropout更严重）。
异构数据的整合难题：即便是来自同一个细胞，scRNA-seq和scATAC-seq也是两种截然不同的数据类型。前者是数万个基因的表达计数，后者是数十万个基因组区域的开放信号。如何将这两种特征空间完全不同、数据分布各异的数据，有效地融合到一个统一的框架中，是一个巨大的计算挑战。

现有的分析策略往往存在局限：

独立分析再整合：分别对scRNA-seq和scATAC-seq进行聚类，然后尝试根据相似的细胞簇进行连连看。这种方法简单，但忽略了两种模态在单个细胞内的直接关联。
依赖共享特征的整合：像Seurat WNN这样的方法，通过构建加权近邻图来整合，但可能对数据的质量和模态间的相似性有较高要求。
为非配对数据设计的通用整合工具：如MultiVI, Cobolt等，它们虽然强大，但其对称的VAE架构可能没有充分考虑到两种模态的内在差异，且在处理联合分析数据时，可能没有最大化利用细胞配对这一宝贵信息。

因此需要一个专门为联合分析数据设计的、能够同时解决数据稀疏性和异构性两大难题，并能一体化地完成数据整合与插补的全新计算框架。scMVP 通过一个非对称的、多视角的深度生成模型，旨在充分挖掘联合分析数据的潜力，为下游分析提供高质量的联合嵌入和修复后的数据。

2. scMVP 模型

scMVP的核心是一个非对称的多模态变分自编码器（VAE），它通过引入高斯混合模型（GMM）先验、非对称的注意力编码器和循环一致性约束，实现了对联合分析数据的高效建模。

标准VAE通常假设潜在空间$z$服从一个简单的标准高斯分布。然而，单细胞数据往往具有明显的聚类结构（即不同的细胞类型）。为了更好地捕捉这种结构，scMVP采用了高斯混合模型（GMM）作为潜在空间$z$的先验分布：

\[p(c) = \prod_{k=1}^K \pi_k^{c_k} \\ p(z|c) = \mathcal{N}(z | \mu_c, \sigma_c I)\]

其中，$c$是代表细胞所属簇（component）的离散变量，$K$是预设的簇数量。这个设计的直觉是，每个细胞都来自$K$个潜在的细胞类型中的一个，而每个细胞类型在潜在空间中都对应一个高斯分布。

scMVP的整体框架是一个多视角（multi-view）的VAE，它试图从一个共享的潜在嵌入$z$出发，同时重构出scRNA-seq数据$x$和scATAC-seq数据$y$。其优化的目标是最大化证据下界（ELBO）：

\[L_{elbo}(x, y) = \mathbb{E}_{q(z,c|x,y)} \left[ \log \frac{p(x,y,z,c)}{q(z,c|x,y)} \right]\]

其中，$q(z,c|x,y)$是由编码器网络学习的后验分布，$p(x,y,z,c)$是整个生成模型。

scMVP认识到scRNA-seq和scATAC-seq数据的特性差异，因此为它们设计了非对称的编码器结构，以最高效的方式提取各自的特征。

scATAC-seq 数据极其高维且稀疏。为了捕捉这种数据中潜在的、跨越很长基因组距离的长程依赖关系，scMVP为其配备了一个基于多头自注意力机制（Multi-Head Self-Attention）的Transformer编码器。

\[\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) \\ = \text{softmax}\left(\frac{QW_i^Q (KW_i^K)^T}{\sqrt{d_k}}\right) VW_i^V\]

Transformer的自注意力机制能够计算任意两个peaks之间的关联权重，从而学习到一个全局的、上下文感知的特征表示。

scRNA-seq 数据虽然也稀疏，但维度较低，特征（基因）之间的局部语义更强。因此，scMVP为其配备了一个更轻量级的掩码注意力（Mask Attention）编码器，它能高效地关注到每个细胞中表达量最显著的那些基因，提取关键信息。

这两个非对称的编码器分支的输出，最终会被拼接在一起，共同送入一个联合嵌入层，以推断出共享潜在变量$z$的分布参数（均值和方差）。

scMVP的解码器同样是双通道的，分别负责从共享的潜在嵌入$z$重构出scRNA-seq和scATAC-seq数据。scRNA-seq数据$x$被建模为负二项分布（Negative Binomial, NB），这能很好地处理过离散（over-dispersion）的计数数据。scATAC-seq数据$y$（经过TF-IDF转换）被建模为零膨胀泊松分布（Zero-Inflated Poisson, ZIP），以同时处理大量的零值和非零计数值。

这是解码器部分的一个精巧设计。在解码时，除了输入潜在嵌入$z$，解码器还会接收一个额外的引导信号——细胞属于每个簇$c$的后验概率 $p(c|z)$。这个概率向量会通过一个注意力模块，来加权解码器的输出。这个设计的直觉是，不同细胞类型的调控逻辑是不同的。通过引入簇（细胞类型）的引导信息，解码器可以学习到细胞类型特异性的生成模式，从而实现更精准的重构。

为了保证整合的质量，防止模型在学习过程中出现模式坍塌（即只学会了对齐一部分细胞，而忽略了其他），scMVP引入了一个类似CycleGAN的循环一致性损失（cycle consistency loss）。

首先，利用训练到一半的模型，从共享嵌入$z$中解码，生成插补后的数据 $\hat{x}$ 和 $\hat{y}$。
将这些插补后的数据 $\hat{x}$ 和 $\hat{y}$，再次送入两个独立的、单模态的编码器（结构与主编码器的对应通道相同），得到插补后嵌入 $q(z|\hat{x})$ 和 $q(z|\hat{y})$。
这些插补后嵌入的分布，必须与从原始数据编码得到的原始嵌入 $q(z|x,y)$ 的分布保持一致。这种一致性通过最小化它们之间的KL散度来实现。

\[L_{consistency} = D_{KL}(q(z|x,y) \| q(z|\hat{x})) + D_{KL}(q(z|x,y) \| q(z|\hat{y}))\]

这个循环一致性约束像一个强大的正则项，它确保了从原始数据空间到潜在空间，再到插补数据空间，最后再回到潜在空间的整个环路是闭合且一致的。这使得嵌入空间对两种模态的语义理解更加统一和鲁棒。

3. 实验分析

作者在多个来自不同联合分析技术平台（sci-CAR, Paired-seq, SNARE-seq, SHARE-seq, 10X Multiome）的真实数据集上，对scMVP的性能进行了全面评估。

3.1 实验一：数据插补有效缓解稀疏性

作者首先评估了scMVP的插补（去噪）能力，这是处理稀疏联合分析数据的基础。

作者将插补后的单细胞基因表达谱与对应的bulk RNA-seq数据进行比较。结果显示，经过scMVP插补后的细胞，其表达谱与bulk数据的相关性显著高于原始的稀疏数据，也优于另一个深度生成模型scVI的插补结果。

作者将插补后的scATAC-seq数据与对应的bulk ATAC-seq/DNase-seq数据进行比较。结果显示，scMVP插补后的细胞，能够多识别出数倍于原始数据的、在bulk数据中得到验证的真实开放区域（peaks），并且信噪比（真峰/总峰比例）保持在很高水平。

这些结果有力地证明，scMVP的插补功能能够有效修复dropout，恢复真实的生物学信号，为下游分析打下坚实基础。

3.2 实验二：联合嵌入实现精准细胞聚类

作者比较了scMVP与多种SOTA方法（包括单模态工具、通用整合工具和专门的配对数据整合工具如Seurat WNN）在细胞聚类任务上的表现。

在多个包含混合细胞系的基准数据集上，scMVP在联合嵌入空间中进行聚类的ARI（兰德调整指数）得分，始终处于顶尖水平，与表现最好的单模态方法或WNN相当，并显著优于MOFA+, scAI, MultiVI, Cobolt等一系列通用整合工具。

在Paired-seq数据中，其他方法都只能分出两个细胞系，而scMVP和cisTopic的UMAP图都清晰地分出了第三个细胞簇。进一步分析发现，这个新簇的细胞具有低RNA表达、高ATAC开放度的独特性状，这可能是scMVP通过整合双模态信息才能识别出的一种特殊的细胞状态。

3.3 实验三：在真实复杂组织数据中的应用

作者进一步在来自小鼠大脑皮层、人类PBMC、人类淋巴结和小鼠皮肤等更复杂的真实组织数据集上验证了scMVP的性能。

在这些更具挑战性的数据集上，scMVP依然保持了与SOTA方法相当甚至更优的聚类准确率（图a）。特别是在信噪比更低的SNARE-seq P0大脑数据上，许多通用整合工具性能不佳，而scMVP和WNN依然表现出色。

基于scMVP插补后的RNA数据找到的差异表达基因（DEGs），与原始文献报道的DEGs具有很高的重叠度，优于scVI的插补结果（图b）。

利用scMVP插补后的数据，通过Cicero或LASSO等方法预测的CRE（如启动子和增强子），在H3K4me3和H3K27ac等活性组蛋白修饰上的富集程度，显著高于使用原始数据预测的结果（图c, d）。这表明scMVP的插补去除了噪声，使得调控信号更清晰，从而能推断出更可靠的调控关系。

在包含连续分化过程的数据集上（如大脑发育、皮肤发育），基于scMVP的联合嵌入推断出的细胞分化轨迹，比仅使用单一模态（无论是RNA还是ATAC）推断出的轨迹更清晰、更符合生物学预期。这证明了scMVP的联合嵌入确实融合了两种模态的优势，能够更好地刻画细胞的动态变化过程。