使用scPairing进行单细胞多组学数据集成和生成.

paper：Single-cell multiomics data integration and generation with scPairing

0. TL; DR

scPairing是一个受对比语言-图像预训练（CLIP）模型启发的深度学习框架，能够将来自同一个细胞的不同模态数据嵌入到一个共享的超球面空间中。scPairing通过桥接整合（bridge integration），即利用一个已有的、小规模的配对多组学数据集作为桥梁，来为大规模的、独立的单模态数据集进行配对。

通过广泛的基准测试证明，scPairing生成的人工配对数据，其基因-peak相关性分布与真实的配对数据高度一致，显著优于传统的插补方法；并且能够被轻松扩展，以整合甚至生成包含RNA、ATAC和蛋白质三种模态的数据。

1. 背景介绍

单细胞多组学技术，如10x Multiome，能同时窥探一个细胞内的多个分子层面。这对于理解细胞状态、揭示基因调控网络具有革命性的意义。相比于成熟的单模态测序技术（如scRNA-seq），当前的多组学技术普遍面临两大挑战：

数据的稀缺性（Scarcity）： 多组学实验的成本更高，操作也更复杂。这导致了目前公开的高质量多组学数据集，其规模和数量都远小于单模态数据集。例如，我们已经拥有数百万细胞级别的scRNA-seq图谱，而多组学数据集的规模通常还停留在数万到十万级别。
数据的质量问题（Quality）： 为了在一个细胞内同时测量多种信号，多组学技术往往需要在每个模态的数据质量上做出妥协，导致其稀疏性更高，信噪比更低。这可能会妨碍下游的精细生物学分析。

为了缓解这些问题，一个常见的思路是进行跨模态插补（Cross-modal Imputation），即利用一种模态的数据来预测另一种模态，或者修复数据中的dropout。许多深度生成模型都包含了这样的功能。然而这些插补方法生成的数据往往存在过度平滑（over-smoothing）的问题，可能会丢失真实的、精细的细胞状态信息，其可靠性仍有待商榷，因此很少被直接用于下游的生物学发现。

scPairing不再满足于插补单个基因或peak的表达值，而是通过细胞配对（cell pairing）将两个独立的、大规模的、高质量的单模态数据集（例如一个scRNA-seq图谱和一个scATAC-seq图谱）中的细胞进行配对，从而人工合成一个大规模、高质量的虚拟多组学数据集。为了实现精准的配对，首先需要一个强大的整合模型，能够学习到一个高度对齐的共享嵌入空间。

2. scPairing 方法

scPairing是一个基于VAE和对比学习的深度生成模型，它通过两个核心步骤实现多组学数据的整合与生成：学习共享嵌入空间和基于桥接整合的细胞配对。

2.1 学习共享的超球面嵌入空间

scPairing的核心是一个经过对比损失增强的VAE模型，它旨在将不同模态的数据嵌入到一个共享的、归一化的超球面（hyperspherical）空间中。

与许多直接处理高维原始计数数据的方法不同，scPairing的输入是每个模态的低维表征（如PCA、LSI或scVI等模型生成的嵌入）。这种设计极大地降低了模型的参数量和计算复杂度，并使其能够灵活地利用各种先进的单模态表征模型。

对于每种模态，都有一个专属的编码器，负责将其输入的低维表征进一步转换到共享的超球面潜在空间中。作者假设潜在变量$z$服从Power Spherical分布，这是一种在超球面上替代冯·米塞斯-费希尔分布的高效选择。

整个模型被置于一个VAE框架下，包含标准的KL散度损失和重构损失（从潜在空间重构回输入的低维表征），以保证潜在空间的良好结构和信息保真度。scPairing额外引入了受CLIP启发的对比损失。在每一个mini-batch中，模型的目标是：

最大化来自同一个细胞的不同模态嵌入之间的余弦相似度（吸引配对的模态）。
最小化来自不同细胞的嵌入之间的余弦相似度（排斥非配对的模态）。

对于一个RNA嵌入 $\mu_i^{RNA}$，其对比损失（以交叉熵形式）可以写作：

\[L_{RNA} = - \frac{1}{N} \sum_i \log \frac{\exp((\mu_i^{RNA})^T \mu_i^{ATAC} / \tau)}{\sum_{k=1}^N \exp((\mu_i^{RNA})^T \mu_k^{ATAC} / \tau)}\]

其中 $\tau$ 是一个可学习的温度参数。通过对称地优化RNA→ATAC和ATAC→RNA两个方向的对比损失，模型被强力地驱使去学习一个高度对齐的嵌入空间。

除了对比损失，scPairing还引入了三个辅助损失项来增强整合效果：

对抗性损失 ($L_D$): 训练一个判别器来区分嵌入是来自RNA还是ATAC，并让编码器努力欺骗这个判别器，从而促进模态的混合。
对齐损失 ($L_A$): 直接最大化配对细胞嵌入间的余弦相似度，作为对比损失的补充。
批次对抗性损失 ($L_B$): 训练另一个判别器来区分细胞来自哪个批次，并让编码器去混淆它，从而实现批次校正。

2.2 基于桥接整合的人工细胞配对

在学习到一个高质量的共享嵌入空间后，scPairing就可以进行数据生成步骤了。作者采用一种桥接整合（bridge integration）的策略。

桥接整合需要三组数据：

一个大规模的单模态scRNA-seq数据集$P$。
一个大规模的单模态scATAC-seq数据集$Q$。
一个（通常是小规模的）配对多组学数据集$R$。

首先在配对数据集$R$上训练一个scPairing模型，学习到模态间的对齐规则。然后将这个训练好的模型的RNA和ATAC编码器，分别应用于独立的单模态数据集$P$和$Q$，将它们的细胞也投影到同一个共享的超球面空间中。目标是在$P$和$Q$之间找到最佳的细胞配对，可以被形式化为一个最大权重二分图匹配问题，并可以通过线性求和分配（Linear Sum Assignment）算法高效求解：

构建一个二分图，节点是$P$和$Q$中的细胞。任意一个$P$中的细胞$i$和一个$Q$中的细胞$j$之间的边的权重，是它们在共享嵌入空间中的余弦相似度。求解这个图的最大权重匹配，就得到了$P$和$Q$中细胞的一一配对关系。

通过这个过程就成功地将两个独立的单模态数据集配对，人工合成了一个全新的、大规模的多组学数据集。

3. 实验分析

作者在15个不同的数据集上对scPairing进行了广泛的测试，涵盖了整合、配对生成、鲁棒性分析等多个方面。

3.1 实验一：多组学整合性能

作者首先评估了scPairing作为整合工具的性能，与CLUE, Cobolt, GLUE, LIGER等SOTA方法进行了比较。

在保留细胞类型结构方面（通过k-NN分类准确率评估），scPairing的表现与那些直接处理高维计数数据的复杂模型不相上下，甚至更优（图A）。这证明了其“低维输入”策略的有效性。

在衡量模态对齐精度的FOSCTTM指标上，scPairing显著优于所有其他方法。同时，在衡量模态混合程度的LISI指标上，scPairing也取得了最高分。这表明scPairing在实现精准对齐和充分混合之间取得了最佳的平衡（图B）。

在模拟的桥接整合任务中，scPairing在跨数据集的细胞类型分类和模态对齐两项任务上，都展现出与顶尖方法相当或更优的性能（图C）。

3.2 实验二：人工配对生成高质量多组学数据

作者利用一个配对的人类视网膜数据集作为桥梁，为两个独立的、大规模的视网膜snRNA-seq和snATAC-seq数据集进行了人工配对。

作者评估了生成数据的质量，核心指标是基因-peak相关性的分布。结果显示，由scPairing人工配对的数据，其基因-peak相关性的均值和标准差分布，与真实的配对多组学数据最为接近（图C, D）。

相比之下，传统的插补方法（如基于CCA或深度学习的BABEL, scButterfly），其生成的数据普遍存在过度平滑的问题，导致其基因-peak相关性被系统性地高估。这证明了scPairing的细胞配对策略，相比于数值插补，能生成更符合真实生物学变异的虚拟多组学数据。

3.3 实验三：配对稀有细胞与注释肿瘤亚型

作者展示了scPairing生成的人工配对数据如何在真实的生物学问题中发挥作用。

利用一个富集了某种罕见免疫细胞（R-DC-like细胞）的数据集作为桥梁，scPairing成功地在两个独立的、该细胞类型含量极低的数据集（一个来自扁桃体，一个来自肠道）中，精准地为scRNA-seq数据找到了其对应的scATAC-seq细胞。配对后的ATAC谱在关键marker基因区域（如RORC, AIRE, CD4）的可及性模式与已知的生物学特征完全吻合。这展示了scPairing在研究稀有细胞方面的巨大潜力。

作者应用scPairing来整合和配对来自透明细胞肾细胞癌（ccRCC）的独立scRNA-seq和scATAC-seq数据。scPairing的整合结果帮助修正了原始scATAC-seq数据中存在的多处细胞类型注释错误，例如将误标为B细胞的单核细胞重新正确分类（图B）。人工配对后的数据显示，除了已知的亚型关联外，还存在新的、先前未被报道的scRNA-seq亚型与scATAC-seq亚型之间的关联（图E）。基于配对后的数据，成功地为ccRCC的关键marker基因（如CA9）和潜在预后因子（如COL23A1）识别出了新的、具有差异可及性的候选调控区域（图F, G）。