scMODAL:使用特征链接进行单细胞多组学数据对齐的通用深度学习框架.
0. TL; DR
本文提出了 scMODAL (single-cell Multi-Omics Data Alignment with feature Links),一个专为弱关联、少链接特征场景设计的深度学习整合框架。scMODAL采用生成对抗网络 (GAN) 来驱动不同模态在潜在空间中的分布对齐,利用已知的特征链接来动态寻找相互最近邻(Mutual Nearest Neighbors, MNN)细胞对,在训练中被强制拉近,从而为全局对齐提供了精准的局部引导。
在多个极具挑战性的真实数据集上(如RNA与蛋白、蛋白与蛋白),scMODAL在去除批次效应、保留生物学信息和细胞状态匹配准确性方面,均显著优于包括Seurat、MaxFuse、bindSC、GLUE在内的多种SOTA方法。此外,scMODAL还能用于高质量的跨模态特征插补和特征关系推断。
1. 背景介绍
单细胞多组学整合中,对于scRNA-seq和scATAC-seq这类特征关联性强的模态,已有大量方法能够实现不错的整合效果。因为从理论上讲,基因的表达与其启动子/增强子的开放状态是紧密相连的。
然而整合scRNA-seq和蛋白质组学数据时,挑战陡然升级。原因在于:
- RNA与蛋白的弱关联: 中心法则指出RNA翻译成蛋白质,但mRNA的丰度与对应蛋白质的丰度之间并非简单的线性关系。转录后调控、翻译效率、蛋白质降解等一系列复杂过程,使得这种关联变得微弱且充满噪音。
- 特征数量的不对等与稀缺:scRNA-seq能提供全转录组数万个基因的信息,而抗体依赖的蛋白质组学(如CITE-seq, CyTOF)通常只能测量几十到几百个预选的蛋白。这种信息不对称使得对齐变得更加困难。
现有的整合方法大多不擅长处理这种弱关联、少链接的场景。
- 基于CCA的线性方法 (如Seurat, MaxFuse, bindSC): 它们假设模态间存在线性关系,并通过最大化相关性来寻找投影方向。这种线性假设难以捕捉复杂的生物学现实和非线性的技术批次效应。
- 依赖强关联的图方法 (如GLUE): 它们通常需要一个高质量的、基于先验知识的特征关系图(如基因-peak调控网络),这在RNA-蛋白这种弱关联场景下难以构建。
- 一些深度学习方法: 它们可能过度依赖共享特征,当共享(链接)特征数量稀少或关联性弱时,性能会急剧下降。
因此需要一个既能处理非线性关系,又能在仅有少量、弱相关特征链接的情况下,依然能实现鲁棒、精准整合的新方法。
2. scMODAL 模型
scMODAL是一个深度生成框架,它通过GAN、MNN锚点和几何结构保持实现了在挑战性场景下的高质量数据整合。

scMODAL的基础是一个自编码器结合生成对抗网络的架构。假设有两个待整合的数据集 $X_1$ 和 $X_2$。
每个数据集都有一个独立的编码器($E_1, E_2$),它们是非线性的神经网络,负责将高维的原始细胞数据 $x_1, x_2$ 映射到一个共享的、低维的潜在空间 (latent space) Z 中。同样,每个数据集也有独立的解码器($G_1, G_2$),负责从潜在空间的嵌入向量中重构出原始的高维数据。
引入一个判别器,它的任务是分辨一个给定的潜在向量是来自 $E_1(X_1)$ 还是 $E_2(X_2)$。判别器 D 的目标尽可能准确地区分两个数据集的嵌入向量。其优化的损失函数为:
\[L_{GAN} = \mathbb{E}[\log D(E_1(x_1))] + \mathbb{E}[\log(1 - D(E_2(x_2)))]\]编码器 E 的目标生成以假乱真的嵌入向量,让判别器D无法区分。因此,编码器要最小化上述 $L_{GAN}$。
通过这个min-max博弈过程,两个数据集的潜在嵌入分布被不断拉近,直至判别器再也无法区分它们,从而实现了全局的、非线性的分布对齐。
仅仅使用GAN进行全局对齐是危险的,因为它可能为了拉近整体分布而错误地匹配了本不应匹配的细胞群(比如把T细胞和B细胞混在一起)。需要一些可靠的“路标”来引导对齐过程。scMODAL利用已知的特征链接(feature links)来动态地寻找相互最近邻(Mutual Nearest Neighbors, MNN)锚点对。
特征链接是输入的唯一先验知识,即一个包含 $s$ 对已知正相关特征的矩阵(如蛋白及其编码基因)。在每个mini-batch的训练中,不直接在原始数据上找MNN,而是在这 $s$ 维的链接特征空间中进行寻找。对于一个来自 $X_1$ 的细胞,在 $X_2$ 中找到它在链接特征空间中的k个最近邻;反之亦然。如果两个细胞互为对方的k近邻,它们就构成了一个MNN锚点对。
对于找到的MNN锚点对 $(x_1^{(m)}, x_2^{(m)})$,施加一个简单的L2正则项,强制它们在潜在空间中的嵌入向量尽可能靠近:
\[L_{Anchor} = \frac{1}{M} \sum_{m=1}^M \| E_1(x_1^{(m)}) - E_2(x_2^{(m)}) \|_2^2\]在强力对齐的过程中,模型可能会用力过猛,不仅拉近了不同数据集,也破坏了每个数据集内部原有的精细生物学结构(例如,把两个本应分离的细胞亚群混在了一起)。为了解决这个问题,scMODAL引入了几何结构保持正则项。
对于一个mini-batch中的任何一个细胞 $x_b$,计算它与batch中所有其他细胞在原始高维空间中的高斯核距离,得到一个$B$维的向量 $k_b$ (B是batch size)。这个向量 $k_b$ 就代表了该细胞在原始数据流形上的“几何位置”。
\[k_b = [\exp(-\|x_1 - x_b\|^2/2p_1), \dots, \exp(-\|x_B - x_b\|^2/2p_1)]\]同样计算该细胞在潜在空间中的几何表征 $\hat{k}_b$。然后要求这两个几何表征向量的余弦相似度尽可能大。
\[L_{Geo} = - \frac{1}{B} \sum_{b=1}^B \text{Cosine}(k_b, \hat{k}_b)\]这个损失项确保细胞在被整合对齐的同时,其与周围其他细胞的相对远近关系不被破坏,从而完整地保留了数据集内部的生物学结构。
最终,scMODAL的训练是一个联合优化过程,其总损失函数是上述各项的加权和:
\[\min_{E_k, G_k} \max_D L_{GAN} + \lambda_{AE}L_{AE} + \lambda_{Anchor}L_{Anchor} + \lambda_{Geo}L_{Geo}\]其中 $L_{AE}$ 是标准的自编码器重构损失。通过这个精巧的多目标优化,scMODAL实现了鲁棒而精准的多组学数据整合。
3. 实验分析
作者在多个极具挑战性的真实数据集上,对scMODAL的性能进行了严格的基准测试,并与Seurat, MaxFuse, bindSC, GLUE, Monae, Portal等一系列SOTA方法进行了比较。
3.1 实验一:整合RNA与蛋白(CITE-seq)
整合弱相关的scRNA-seq和蛋白质组(ADT)数据,在所有衡量细胞状态匹配准确性的指标上,scMODAL都取得了最佳性能。它的标签迁移准确率高达98%(一级注释)和86%(二级注释),显著高于所有其他方法。同时,它的FOSCTTM和配对距离指标均为最低,表明在它的嵌入空间中,来自同一个细胞的RNA和ADT表征距离最近(图f)。
scMODAL的平均轮廓系数(ASW)显著高于所有对手,这意味着它在整合后,能最好地保持不同细胞类型的分离度。从UMAP图上可以直观地看到,只有scMODAL清晰地分开了NK细胞和CD8 T细胞这两个在转录组上高度相似的群体,而其他方法大多将它们混淆(图h)。
即便将可用的链接特征(蛋白-基因对)从228个减少到仅30个,scMODAL依然能保持SOTA性能,而其他方法的性能则可能下降更多(图g)。这证明了scMODAL对链接特征数量的依赖性较低,鲁棒性极强。
利用训练好的模型,从RNA数据预测蛋白数据。scMODAL预测的蛋白丰度与真实值的Pearson相关性最高(平均0.53),比第二名MaxFuse(0.42)相对提升了29%,更是远超仅用编码基因表达量进行预测的基线(0.24)。这为下游的特征关系推断提供了高质量的数据(图j, k)。

3.2 实验二:整合极少链接特征的蛋白数据 (CITE-seq vs. CyTOF)
整合两种不同的蛋白质组学技术(CITE-seq和CyTOF)的数据。它们之间不仅有技术平台差异,抗体panel也不同,只有12个共同的蛋白marker可作为链接特征。
在这个极具挑战性的任务中,scMODAL再次取得了最佳的综合性能。它不仅实现了最好的模态混合(kBET和mixing metric),还保持了最高的标签迁移准确率和最好的细胞类型分离度(ASW)(图b, d)。这充分证明了scMODAL在链接特征极度稀疏场景下的强大整合能力。
通过消融实验发现,GAN是实现良好混合的关键,MNN锚点是实现准确匹配的核心,而几何结构保持则防止细胞簇被破坏。

3.3 实验三:整合复杂的多模态数据(TEA-seq三模态 & 小鼠大脑)
进一步将scMODAL应用于更复杂的场景,如同时整合RNA、ATAC和蛋白质三种模态,以及整合细胞类型极其复杂的小鼠大脑数据。
scMODAL是唯一一个在RNA-ADT和RNA-ATAC两个匹配任务上准确率均超过70%的方法,展现了其处理多模态数据的灵活性和可靠性。
在整合小鼠大脑scRNA-seq和scATAC-seq数据时,scMODAL不仅正确对齐了主要的细胞类型,还能精准地区分出不同皮层的兴奋性神经元亚型(如Layer 2/3, Layer 4, Layer 5/6),并保持了它们在原始数据中的精细拓扑结构,这是其他方法难以做到的。
利用scMODAL高质量的基因表达插补结果,成功地为星形胶质细胞的marker gene Fam107a 推断出了潜在的cis调控元件(peaks),展示了scMODAL在辅助下游生物学发现方面的巨大潜力(图g, h, i)。
