scMODAL:使用特征链接进行单细胞多组学数据对齐的通用深度学习框架.

0. TL; DR

本文提出了 scMODAL (single-cell Multi-Omics Data Alignment with feature Links),一个专为弱关联、少链接特征场景设计的深度学习整合框架。scMODAL采用生成对抗网络 (GAN) 来驱动不同模态在潜在空间中的分布对齐,利用已知的特征链接来动态寻找相互最近邻(Mutual Nearest Neighbors, MNN)细胞对,在训练中被强制拉近,从而为全局对齐提供了精准的局部引导。

在多个极具挑战性的真实数据集上(如RNA与蛋白、蛋白与蛋白),scMODAL在去除批次效应、保留生物学信息和细胞状态匹配准确性方面,均显著优于包括Seurat、MaxFuse、bindSC、GLUE在内的多种SOTA方法。此外,scMODAL还能用于高质量的跨模态特征插补和特征关系推断。

1. 背景介绍

单细胞多组学整合中,对于scRNA-seqscATAC-seq这类特征关联性强的模态,已有大量方法能够实现不错的整合效果。因为从理论上讲,基因的表达与其启动子/增强子的开放状态是紧密相连的。

然而整合scRNA-seq蛋白质组学数据时,挑战陡然升级。原因在于:

现有的整合方法大多不擅长处理这种弱关联、少链接的场景。

因此需要一个既能处理非线性关系,又能在仅有少量、弱相关特征链接的情况下,依然能实现鲁棒、精准整合的新方法。

2. scMODAL 模型

scMODAL是一个深度生成框架,它通过GAN、MNN锚点和几何结构保持实现了在挑战性场景下的高质量数据整合。

scMODAL的基础是一个自编码器结合生成对抗网络的架构。假设有两个待整合的数据集 $X_1$ 和 $X_2$。

每个数据集都有一个独立的编码器($E_1, E_2$),它们是非线性的神经网络,负责将高维的原始细胞数据 $x_1, x_2$ 映射到一个共享的、低维的潜在空间 (latent space) Z 中。同样,每个数据集也有独立的解码器($G_1, G_2$),负责从潜在空间的嵌入向量中重构出原始的高维数据。

引入一个判别器,它的任务是分辨一个给定的潜在向量是来自 $E_1(X_1)$ 还是 $E_2(X_2)$。判别器 D 的目标尽可能准确地区分两个数据集的嵌入向量。其优化的损失函数为:

\[L_{GAN} = \mathbb{E}[\log D(E_1(x_1))] + \mathbb{E}[\log(1 - D(E_2(x_2)))]\]

编码器 E 的目标生成以假乱真的嵌入向量,让判别器D无法区分。因此,编码器要最小化上述 $L_{GAN}$。

通过这个min-max博弈过程,两个数据集的潜在嵌入分布被不断拉近,直至判别器再也无法区分它们,从而实现了全局的、非线性的分布对齐。

仅仅使用GAN进行全局对齐是危险的,因为它可能为了拉近整体分布而错误地匹配了本不应匹配的细胞群(比如把T细胞和B细胞混在一起)。需要一些可靠的“路标”来引导对齐过程。scMODAL利用已知的特征链接(feature links)来动态地寻找相互最近邻(Mutual Nearest Neighbors, MNN)锚点对。

特征链接是输入的唯一先验知识,即一个包含 $s$ 对已知正相关特征的矩阵(如蛋白及其编码基因)。在每个mini-batch的训练中,不直接在原始数据上找MNN,而是在这 $s$ 维的链接特征空间中进行寻找。对于一个来自 $X_1$ 的细胞,在 $X_2$ 中找到它在链接特征空间中的k个最近邻;反之亦然。如果两个细胞互为对方的k近邻,它们就构成了一个MNN锚点对。

对于找到的MNN锚点对 $(x_1^{(m)}, x_2^{(m)})$,施加一个简单的L2正则项,强制它们在潜在空间中的嵌入向量尽可能靠近:

\[L_{Anchor} = \frac{1}{M} \sum_{m=1}^M \| E_1(x_1^{(m)}) - E_2(x_2^{(m)}) \|_2^2\]

在强力对齐的过程中,模型可能会用力过猛,不仅拉近了不同数据集,也破坏了每个数据集内部原有的精细生物学结构(例如,把两个本应分离的细胞亚群混在了一起)。为了解决这个问题,scMODAL引入了几何结构保持正则项。

对于一个mini-batch中的任何一个细胞 $x_b$,计算它与batch中所有其他细胞在原始高维空间中的高斯核距离,得到一个$B$维的向量 $k_b$ (B是batch size)。这个向量 $k_b$ 就代表了该细胞在原始数据流形上的“几何位置”。

\[k_b = [\exp(-\|x_1 - x_b\|^2/2p_1), \dots, \exp(-\|x_B - x_b\|^2/2p_1)]\]

同样计算该细胞在潜在空间中的几何表征 $\hat{k}_b$。然后要求这两个几何表征向量的余弦相似度尽可能大。

\[L_{Geo} = - \frac{1}{B} \sum_{b=1}^B \text{Cosine}(k_b, \hat{k}_b)\]

这个损失项确保细胞在被整合对齐的同时,其与周围其他细胞的相对远近关系不被破坏,从而完整地保留了数据集内部的生物学结构。

最终,scMODAL的训练是一个联合优化过程,其总损失函数是上述各项的加权和:

\[\min_{E_k, G_k} \max_D L_{GAN} + \lambda_{AE}L_{AE} + \lambda_{Anchor}L_{Anchor} + \lambda_{Geo}L_{Geo}\]

其中 $L_{AE}$ 是标准的自编码器重构损失。通过这个精巧的多目标优化,scMODAL实现了鲁棒而精准的多组学数据整合。

3. 实验分析

作者在多个极具挑战性的真实数据集上,对scMODAL的性能进行了严格的基准测试,并与Seurat, MaxFuse, bindSC, GLUE, Monae, Portal等一系列SOTA方法进行了比较。

3.1 实验一:整合RNA与蛋白(CITE-seq)

整合弱相关的scRNA-seq和蛋白质组(ADT)数据,在所有衡量细胞状态匹配准确性的指标上,scMODAL都取得了最佳性能。它的标签迁移准确率高达98%(一级注释)和86%(二级注释),显著高于所有其他方法。同时,它的FOSCTTM和配对距离指标均为最低,表明在它的嵌入空间中,来自同一个细胞的RNAADT表征距离最近(图f)。

scMODAL的平均轮廓系数(ASW)显著高于所有对手,这意味着它在整合后,能最好地保持不同细胞类型的分离度。从UMAP图上可以直观地看到,只有scMODAL清晰地分开了NK细胞和CD8 T细胞这两个在转录组上高度相似的群体,而其他方法大多将它们混淆(图h)。

即便将可用的链接特征(蛋白-基因对)从228个减少到仅30个,scMODAL依然能保持SOTA性能,而其他方法的性能则可能下降更多(图g)。这证明了scMODAL对链接特征数量的依赖性较低,鲁棒性极强。

利用训练好的模型,从RNA数据预测蛋白数据。scMODAL预测的蛋白丰度与真实值的Pearson相关性最高(平均0.53),比第二名MaxFuse(0.42)相对提升了29%,更是远超仅用编码基因表达量进行预测的基线(0.24)。这为下游的特征关系推断提供了高质量的数据(图j, k)。

3.2 实验二:整合极少链接特征的蛋白数据 (CITE-seq vs. CyTOF)

整合两种不同的蛋白质组学技术(CITE-seqCyTOF)的数据。它们之间不仅有技术平台差异,抗体panel也不同,只有12个共同的蛋白marker可作为链接特征。

在这个极具挑战性的任务中,scMODAL再次取得了最佳的综合性能。它不仅实现了最好的模态混合(kBETmixing metric),还保持了最高的标签迁移准确率和最好的细胞类型分离度(ASW)(图b, d)。这充分证明了scMODAL在链接特征极度稀疏场景下的强大整合能力。

通过消融实验发现,GAN是实现良好混合的关键,MNN锚点是实现准确匹配的核心,而几何结构保持则防止细胞簇被破坏。

3.3 实验三:整合复杂的多模态数据(TEA-seq三模态 & 小鼠大脑)

进一步将scMODAL应用于更复杂的场景,如同时整合RNA、ATAC和蛋白质三种模态,以及整合细胞类型极其复杂的小鼠大脑数据。

scMODAL是唯一一个在RNA-ADTRNA-ATAC两个匹配任务上准确率均超过70%的方法,展现了其处理多模态数据的灵活性和可靠性。

在整合小鼠大脑scRNA-seqscATAC-seq数据时,scMODAL不仅正确对齐了主要的细胞类型,还能精准地区分出不同皮层的兴奋性神经元亚型(如Layer 2/3, Layer 4, Layer 5/6),并保持了它们在原始数据中的精细拓扑结构,这是其他方法难以做到的。

利用scMODAL高质量的基因表达插补结果,成功地为星形胶质细胞的marker gene Fam107a 推断出了潜在的cis调控元件(peaks),展示了scMODAL在辅助下游生物学发现方面的巨大潜力(图g, h, i)。