通过结构相似性进行多模态单细胞数据整合分析.
0. TL; DR
SAILERX是一个用于高效、鲁棒和灵活分析多模态单细胞数据的深度学习框架,它鼓励两种模态在嵌入空间中的局部结构(local structures)(通过成对相似性衡量)保持相似,采用了非对称的建模策略,scRNA-seq数据预训练好的嵌入在模型训练中保持固定,scATAC-seq数据通过一个变分自编码器进行建模和降维。
SAILERX不仅能处理配对的多组学数据,还能灵活地进行混合训练(hybrid training),即利用高质量的多组学数据来辅助和提升一个独立的、只有单一模态(如scATAC-seq)的数据集的分析质量。
1. 背景介绍
单细胞多组学技术,特别是能同时测量scRNA-seq和scATAC-seq的配对技术,为我们揭示转录与表观调控之间的相互作用提供了宝贵的机会。然而,要有效地整合这两种性质迥异的数据,并非易事。一个核心的挑战在于不同模态之间不平衡的信噪比(signal-to-noise ratio, SNR)。相比于scRNA-seq,scATAC-seq数据通常稀疏得多,噪声也更大。
许多现有的整合方法,如scAI, scMM, Cobolt等,采用了一种硬对齐(hard alignment)策略,即通过NMF或编码器-解码器网络,将两种模态的数据强行投影到一个共享的潜在空间中。这种策略基于一个强假设:不同模态的测量是同等信息量的,并且共享一个共同的分布。
然而,在现实中,这个假设往往不成立。当一个强模态(如scRNA-seq)和一个弱模态(如scATAC-seq)被强制对齐时,很容易发生过拟合:模型可能会过度学习强模态中的噪声,并将其强加到弱模态上,最终导致整合后的嵌入空间,其细胞簇的分离效果甚至比只用强模态进行分析还要差。
为了解决这个问题,作者提出了一种新的整合思路:我们是否可以不强求点对点的硬对齐,而是采用一种更软的约束?例如,只要求两种模态在潜在空间中保持相似的局部拓扑结构。基于这一思想,作者开发了SAILERX。它通过一种非对称的、以强带弱的策略,并结合不变性表征学习,旨在实现更鲁棒、更灵活的多组学数据整合。
2. SAILERX 方法
SAILERX的核心思想是,利用scRNA-seq作为教师模态,来指导scATAC-seq学生模态的学习,但这种指导不是通过强制嵌入向量完全一致,而是通过保持两者局部结构相似性的软约束来实现的。

SAILERX的架构是非对称的,它主要围绕一个用于处理scATAC-seq数据的VAE构建。scRNA-seq数据被视为信息更丰富的参考(reference)模态。作者首先对其进行预处理和降维(如使用PCA),得到一个固定的参考嵌入。在SAILERX的主要训练过程中,这个参考嵌入不会被更新。
scATAC-seq数据是模型的主要学习对象。它被输入到一个变分自编码器中。编码器负责将高维的scATAC-seq peak矩阵 $x_p$,编码到一个低维的潜在空间,得到潜变量 $z$ 的后验分布 $q_\phi(z|x_p)$。解码器负责从潜变量 $z$ 中,重构出原始的peak矩阵。
SAILERX的训练由两个核心的损失函数驱动。
⚪ 不变性表征学习损失 (Invariant Representation Learning, $L_{Inv}$)
$L_{Inv}$ 旨在学习一个对技术性噪声(如批次效应、测序深度)不敏感的、不变的潜在表征。该损失项基于一个不变性风险最小化(IRM)的原则。它要求模型学习到的潜变量 $z$ 与已知的混杂因素 $c$(如批次标签、测序深度)相互独立。通过在标准的VAE ELBO损失的基础上,增加一个惩罚 $z$ 和 $c$ 之间互信息的项来实现。
\[L_{Inv} = L_{VAE} + \lambda I(z, c)\]最终,这个损失可以近似为一个经过调整的ELBO:
\[L_{Inv} \ge \mathbb{E}[-KL[q(z|x)\|p(z)]] + (1+\lambda)\mathbb{E}[\log p(x|z,c)] - \lambda KL[q(z|x)\|q(z)]\]通过这个损失函数,模型被激励去将与混杂因素 $c$ 相关的信息,从潜变量 $z$ 中剥离出去,从而得到一个更纯净的、只反映生物学差异的表征。
⚪ 局部结构对齐损失 (Local Alignment Loss, $L_{Local}$)
作者不强求scATAC-seq的嵌入与scRNA-seq的嵌入完全相同,而是要求它们的局部邻域结构保持一致。
在每个mini-batch中,分别计算scRNA-seq参考嵌入的成对余弦相似度矩阵 $S_g$,和scATAC-seq潜在嵌入的成对余弦相似度矩阵 $S_p$。然后,通过最小化这两个相似度矩阵之间的欧氏距离,来软性地对齐两个模态。
\[L_{Local} = \sum_{i=1}^M d(S_g^i, S_p^i)\]这种结构对齐而非点对齐的策略,给了模型更大的灵活性。它允许两种模态的嵌入存在差异,只要它们能保持相似的细胞间相对关系即可。这极大地降低了将scRNA-seq的噪声传递给scATAC-seq的风险。
⚪ 最终目标函数与混合训练
SAILERX的最终损失函数是上述两个损失的加权和:
\[L = L_{Inv} + \gamma L_{Local}\]权重 $\gamma$ 并非一个固定的超参数,而是根据每个细胞在两种模态中的测序深度之比动态计算的。这使得模型能够自动地为scATAC-seq数据质量较低的细胞,从scRNA-seq中借用更多的信息。
⚪ 混合训练 (Hybrid Training)
SAILERX的框架还允许进行混合训练。即当作者有一个配对的多组学数据集,和一个只有scATAC-seq的单模态数据集时,可以将它们一起训练。对于配对数据,模型使用完整的损失函数。对于单模态数据,则只使用不变性表征学习损失 $L_{Inv}$。
通过这种方式,可以利用高质量的配对数据,来提升对独立的、质量可能较低的单模态数据的分析效果。
3. 实验分析
作者在三个来自10x Genomics, SHARE-seq和SNARE-seq平台的配对多组学数据集上,对SAILERX的性能进行了全面的评估,并与Signac(WNN), Schema, Cobolt, Seurat, scVI等多种SOTA方法进行了比较。
3.1 实验一:整合与聚类性能
作者首先在PBMC 10k数据集上测试了不同方法的整合与聚类效果。
- 图A (UMAP可视化): SAILERX的UMAP图展现了最清晰的细胞簇结构。它不仅继承了scRNA-seq(Seurat)参考嵌入的良好分离度,还通过整合scATAC-seq的信息,成功地将B细胞的亚群(红圈所示)进行了更精细的区分,这是仅使用scRNA-seq无法做到的。
- 图B (定量评估):** 在ARI, NMI和Silhouette三个聚类评估指标上,SAILERX的得分全面最高,显著优于所有其他单模态和多模态整合方法。
- 图C (参考嵌入的影响): 作者进一步测试了使用不同的scRNA-seq嵌入方法(scVI, scANVI, Scanorama)作为参考。结果显示,无论使用哪种参考,SAILERX的整合结果都稳定地优于原始的参考嵌入。这证明了SAILERX信息融合策略的有效性和鲁棒性。

在另外两个数据集(SNARE-seq和Share-seq)上,SAILERX同样取得了最佳的聚类性能。

3.2 实验二:混合训练提升单模态数据分析
作者展示了SAILERX的混合训练能力,即利用一个高质量的PBMC 10k多组学数据集,来辅助分析一个只有scATAC-seq的PBMC 3k数据集。
- 图B (UMAP可视化): 经过与10k数据的混合训练后,PBMC 3k数据的UMAP图展现出了比单独分析时(Signac)或与其他方法(Cobolt)联合分析时更清晰的细胞簇结构。
- 图C (定量评估): 在所有聚类指标上,混合训练后的SAILERX均取得了最佳性能。这证明,通过借用高质量多组学数据的信息,SAILERX能够显著提升对低质量单模态数据的分析效果。

3.3 实验三:促进下游分析
作者进一步探究了SAILERX高质量的嵌入,如何促进下游的生物学发现。
作者在SNARE-seq数据中,对Pvalb和L5 PT两种神经元进行了差异motif分析。结果显示,在SAILERX的聚类结果上计算出的motif富集z-score,显著高于所有其他方法。这意味着SAILERX的整合结果,能够帮助我们更灵敏地发现细胞类型特异性的调控因子(如Mef和POU家族TF)。

3.4 实验四:数据插补
最后,作者评估了SAILERX在数据插补(imputation)方面的能力,并与MAGIC和scOpen进行了比较。
- 图A (UMAP可视化): SAILERX插补后的scATAC-seq数据,其UMAP图最好地保留了细胞类型的景观,簇结构最清晰。
- 图6 (定量评估): 在所有聚类指标上,SAILERX插补后的数据也取得了最佳性能。

作者进一步在插补后的数据上重复了motif富集分析,发现其富集信号比在原始数据上更强。这证明SAILERX的插补不仅是数学上的填空,更是生物学上有意义的信号恢复。