scMODAL：使用特征链接进行单细胞多组学数据对齐的通用深度学习框架.

paper：scMODAL: a general deep learning framework for comprehensive single-cell multi-omics data alignment with feature links

0. TL; DR

本文提出了 scMODAL (single-cell Multi-Omics Data Alignment with feature Links)，一个专为弱关联、少链接特征场景设计的深度学习整合框架。scMODAL采用生成对抗网络 (GAN) 来驱动不同模态在潜在空间中的分布对齐，利用已知的特征链接来动态寻找相互最近邻（Mutual Nearest Neighbors, MNN）细胞对，在训练中被强制拉近，从而为全局对齐提供了精准的局部引导。

在多个极具挑战性的真实数据集上（如RNA与蛋白、蛋白与蛋白），scMODAL在去除批次效应、保留生物学信息和细胞状态匹配准确性方面，均显著优于包括Seurat、MaxFuse、bindSC、GLUE在内的多种SOTA方法。此外，scMODAL还能用于高质量的跨模态特征插补和特征关系推断。

1. 背景介绍

单细胞多组学整合中，对于scRNA-seq和scATAC-seq这类特征关联性强的模态，已有大量方法能够实现不错的整合效果。因为从理论上讲，基因的表达与其启动子/增强子的开放状态是紧密相连的。

然而整合scRNA-seq和蛋白质组学数据时，挑战陡然升级。原因在于：

RNA与蛋白的弱关联：中心法则指出RNA翻译成蛋白质，但mRNA的丰度与对应蛋白质的丰度之间并非简单的线性关系。转录后调控、翻译效率、蛋白质降解等一系列复杂过程，使得这种关联变得微弱且充满噪音。
特征数量的不对等与稀缺：scRNA-seq能提供全转录组数万个基因的信息，而抗体依赖的蛋白质组学（如CITE-seq, CyTOF）通常只能测量几十到几百个预选的蛋白。这种信息不对称使得对齐变得更加困难。

现有的整合方法大多不擅长处理这种弱关联、少链接的场景。

基于CCA的线性方法 (如Seurat, MaxFuse, bindSC): 它们假设模态间存在线性关系，并通过最大化相关性来寻找投影方向。这种线性假设难以捕捉复杂的生物学现实和非线性的技术批次效应。
依赖强关联的图方法 (如GLUE): 它们通常需要一个高质量的、基于先验知识的特征关系图（如基因-peak调控网络），这在RNA-蛋白这种弱关联场景下难以构建。
一些深度学习方法：它们可能过度依赖共享特征，当共享（链接）特征数量稀少或关联性弱时，性能会急剧下降。

因此需要一个既能处理非线性关系，又能在仅有少量、弱相关特征链接的情况下，依然能实现鲁棒、精准整合的新方法。

2. scMODAL 模型

scMODAL是一个深度生成框架，它通过GAN、MNN锚点和几何结构保持实现了在挑战性场景下的高质量数据整合。

scMODAL的基础是一个自编码器结合生成对抗网络的架构。假设有两个待整合的数据集 $X_1$ 和 $X_2$。

每个数据集都有一个独立的编码器（$E_1, E_2$），它们是非线性的神经网络，负责将高维的原始细胞数据 $x_1, x_2$ 映射到一个共享的、低维的潜在空间 (latent space) Z 中。同样，每个数据集也有独立的解码器（$G_1, G_2$），负责从潜在空间的嵌入向量中重构出原始的高维数据。

引入一个判别器，它的任务是分辨一个给定的潜在向量是来自 $E_1(X_1)$ 还是 $E_2(X_2)$。判别器 D 的目标尽可能准确地区分两个数据集的嵌入向量。其优化的损失函数为：

\[L_{GAN} = \mathbb{E}[\log D(E_1(x_1))] + \mathbb{E}[\log(1 - D(E_2(x_2)))]\]

编码器 E 的目标生成以假乱真的嵌入向量，让判别器D无法区分。因此，编码器要最小化上述 $L_{GAN}$。

通过这个min-max博弈过程，两个数据集的潜在嵌入分布被不断拉近，直至判别器再也无法区分它们，从而实现了全局的、非线性的分布对齐。

仅仅使用GAN进行全局对齐是危险的，因为它可能为了拉近整体分布而错误地匹配了本不应匹配的细胞群（比如把T细胞和B细胞混在一起）。需要一些可靠的“路标”来引导对齐过程。scMODAL利用已知的特征链接（feature links）来动态地寻找相互最近邻（Mutual Nearest Neighbors, MNN）锚点对。

特征链接是输入的唯一先验知识，即一个包含 $s$ 对已知正相关特征的矩阵（如蛋白及其编码基因）。在每个mini-batch的训练中，不直接在原始数据上找MNN，而是在这 $s$ 维的链接特征空间中进行寻找。对于一个来自 $X_1$ 的细胞，在 $X_2$ 中找到它在链接特征空间中的k个最近邻；反之亦然。如果两个细胞互为对方的k近邻，它们就构成了一个MNN锚点对。

对于找到的MNN锚点对 $(x_1^{(m)}, x_2^{(m)})$，施加一个简单的L2正则项，强制它们在潜在空间中的嵌入向量尽可能靠近：

\[L_{Anchor} = \frac{1}{M} \sum_{m=1}^M \| E_1(x_1^{(m)}) - E_2(x_2^{(m)}) \|_2^2\]

在强力对齐的过程中，模型可能会用力过猛，不仅拉近了不同数据集，也破坏了每个数据集内部原有的精细生物学结构（例如，把两个本应分离的细胞亚群混在了一起）。为了解决这个问题，scMODAL引入了几何结构保持正则项。

对于一个mini-batch中的任何一个细胞 $x_b$，计算它与batch中所有其他细胞在原始高维空间中的高斯核距离，得到一个$B$维的向量 $k_b$ (B是batch size)。这个向量 $k_b$ 就代表了该细胞在原始数据流形上的“几何位置”。

\[k_b = [\exp(-\|x_1 - x_b\|^2/2p_1), \dots, \exp(-\|x_B - x_b\|^2/2p_1)]\]

同样计算该细胞在潜在空间中的几何表征 $\hat{k}_b$。然后要求这两个几何表征向量的余弦相似度尽可能大。

\[L_{Geo} = - \frac{1}{B} \sum_{b=1}^B \text{Cosine}(k_b, \hat{k}_b)\]

这个损失项确保细胞在被整合对齐的同时，其与周围其他细胞的相对远近关系不被破坏，从而完整地保留了数据集内部的生物学结构。

最终，scMODAL的训练是一个联合优化过程，其总损失函数是上述各项的加权和：

\[\min_{E_k, G_k} \max_D L_{GAN} + \lambda_{AE}L_{AE} + \lambda_{Anchor}L_{Anchor} + \lambda_{Geo}L_{Geo}\]

其中 $L_{AE}$ 是标准的自编码器重构损失。通过这个精巧的多目标优化，scMODAL实现了鲁棒而精准的多组学数据整合。

3. 实验分析

作者在多个极具挑战性的真实数据集上，对scMODAL的性能进行了严格的基准测试，并与Seurat, MaxFuse, bindSC, GLUE, Monae, Portal等一系列SOTA方法进行了比较。

3.1 实验一：整合RNA与蛋白（CITE-seq）

整合弱相关的scRNA-seq和蛋白质组（ADT）数据，在所有衡量细胞状态匹配准确性的指标上，scMODAL都取得了最佳性能。它的标签迁移准确率高达98%（一级注释）和86%（二级注释），显著高于所有其他方法。同时，它的FOSCTTM和配对距离指标均为最低，表明在它的嵌入空间中，来自同一个细胞的RNA和ADT表征距离最近（图f）。

scMODAL的平均轮廓系数（ASW）显著高于所有对手，这意味着它在整合后，能最好地保持不同细胞类型的分离度。从UMAP图上可以直观地看到，只有scMODAL清晰地分开了NK细胞和CD8 T细胞这两个在转录组上高度相似的群体，而其他方法大多将它们混淆（图h）。

即便将可用的链接特征（蛋白-基因对）从228个减少到仅30个，scMODAL依然能保持SOTA性能，而其他方法的性能则可能下降更多（图g）。这证明了scMODAL对链接特征数量的依赖性较低，鲁棒性极强。

利用训练好的模型，从RNA数据预测蛋白数据。scMODAL预测的蛋白丰度与真实值的Pearson相关性最高（平均0.53），比第二名MaxFuse（0.42）相对提升了29%，更是远超仅用编码基因表达量进行预测的基线（0.24）。这为下游的特征关系推断提供了高质量的数据（图j, k）。

3.2 实验二：整合极少链接特征的蛋白数据 (CITE-seq vs. CyTOF)

整合两种不同的蛋白质组学技术（CITE-seq和CyTOF）的数据。它们之间不仅有技术平台差异，抗体panel也不同，只有12个共同的蛋白marker可作为链接特征。

在这个极具挑战性的任务中，scMODAL再次取得了最佳的综合性能。它不仅实现了最好的模态混合（kBET和mixing metric），还保持了最高的标签迁移准确率和最好的细胞类型分离度（ASW）（图b, d）。这充分证明了scMODAL在链接特征极度稀疏场景下的强大整合能力。

通过消融实验发现，GAN是实现良好混合的关键，MNN锚点是实现准确匹配的核心，而几何结构保持则防止细胞簇被破坏。

3.3 实验三：整合复杂的多模态数据（TEA-seq三模态 & 小鼠大脑）

进一步将scMODAL应用于更复杂的场景，如同时整合RNA、ATAC和蛋白质三种模态，以及整合细胞类型极其复杂的小鼠大脑数据。

scMODAL是唯一一个在RNA-ADT和RNA-ATAC两个匹配任务上准确率均超过70%的方法，展现了其处理多模态数据的灵活性和可靠性。

在整合小鼠大脑scRNA-seq和scATAC-seq数据时，scMODAL不仅正确对齐了主要的细胞类型，还能精准地区分出不同皮层的兴奋性神经元亚型（如Layer 2/3, Layer 4, Layer 5/6），并保持了它们在原始数据中的精细拓扑结构，这是其他方法难以做到的。

利用scMODAL高质量的基因表达插补结果，成功地为星形胶质细胞的marker gene Fam107a 推断出了潜在的cis调控元件（peaks），展示了scMODAL在辅助下游生物学发现方面的巨大潜力（图g, h, i）。