通过结构相似性进行多模态单细胞数据整合分析.

0. TL; DR

SAILERX是一个用于高效、鲁棒和灵活分析多模态单细胞数据的深度学习框架,它鼓励两种模态在嵌入空间中的局部结构(local structures)(通过成对相似性衡量)保持相似,采用了非对称的建模策略,scRNA-seq数据预训练好的嵌入在模型训练中保持固定,scATAC-seq数据通过一个变分自编码器进行建模和降维。

SAILERX不仅能处理配对的多组学数据,还能灵活地进行混合训练(hybrid training),即利用高质量的多组学数据来辅助和提升一个独立的、只有单一模态(如scATAC-seq)的数据集的分析质量。

1. 背景介绍

单细胞多组学技术,特别是能同时测量scRNA-seqscATAC-seq的配对技术,为我们揭示转录与表观调控之间的相互作用提供了宝贵的机会。然而,要有效地整合这两种性质迥异的数据,并非易事。一个核心的挑战在于不同模态之间不平衡的信噪比(signal-to-noise ratio, SNR)。相比于scRNA-seqscATAC-seq数据通常稀疏得多,噪声也更大。

许多现有的整合方法,如scAI, scMM, Cobolt等,采用了一种硬对齐(hard alignment)策略,即通过NMF或编码器-解码器网络,将两种模态的数据强行投影到一个共享的潜在空间中。这种策略基于一个强假设:不同模态的测量是同等信息量的,并且共享一个共同的分布。

然而,在现实中,这个假设往往不成立。当一个强模态(如scRNA-seq)和一个弱模态(如scATAC-seq)被强制对齐时,很容易发生过拟合:模型可能会过度学习强模态中的噪声,并将其强加到弱模态上,最终导致整合后的嵌入空间,其细胞簇的分离效果甚至比只用强模态进行分析还要差。

为了解决这个问题,作者提出了一种新的整合思路:我们是否可以不强求点对点的硬对齐,而是采用一种更软的约束?例如,只要求两种模态在潜在空间中保持相似的局部拓扑结构。基于这一思想,作者开发了SAILERX。它通过一种非对称的、以强带弱的策略,并结合不变性表征学习,旨在实现更鲁棒、更灵活的多组学数据整合。

2. SAILERX 方法

SAILERX的核心思想是,利用scRNA-seq作为教师模态,来指导scATAC-seq学生模态的学习,但这种指导不是通过强制嵌入向量完全一致,而是通过保持两者局部结构相似性的软约束来实现的。

SAILERX的架构是非对称的,它主要围绕一个用于处理scATAC-seq数据的VAE构建。scRNA-seq数据被视为信息更丰富的参考(reference)模态。作者首先对其进行预处理和降维(如使用PCA),得到一个固定的参考嵌入。在SAILERX的主要训练过程中,这个参考嵌入不会被更新。

scATAC-seq数据是模型的主要学习对象。它被输入到一个变分自编码器中。编码器负责将高维的scATAC-seq peak矩阵 $x_p$,编码到一个低维的潜在空间,得到潜变量 $z$ 的后验分布 $q_\phi(z|x_p)$。解码器负责从潜变量 $z$ 中,重构出原始的peak矩阵。

SAILERX的训练由两个核心的损失函数驱动。

⚪ 不变性表征学习损失 (Invariant Representation Learning, $L_{Inv}$)

$L_{Inv}$ 旨在学习一个对技术性噪声(如批次效应、测序深度)不敏感的、不变的潜在表征。该损失项基于一个不变性风险最小化(IRM)的原则。它要求模型学习到的潜变量 $z$ 与已知的混杂因素 $c$(如批次标签、测序深度)相互独立。通过在标准的VAE ELBO损失的基础上,增加一个惩罚 $z$ 和 $c$ 之间互信息的项来实现。

\[L_{Inv} = L_{VAE} + \lambda I(z, c)\]

最终,这个损失可以近似为一个经过调整的ELBO

\[L_{Inv} \ge \mathbb{E}[-KL[q(z|x)\|p(z)]] + (1+\lambda)\mathbb{E}[\log p(x|z,c)] - \lambda KL[q(z|x)\|q(z)]\]

通过这个损失函数,模型被激励去将与混杂因素 $c$ 相关的信息,从潜变量 $z$ 中剥离出去,从而得到一个更纯净的、只反映生物学差异的表征。

⚪ 局部结构对齐损失 (Local Alignment Loss, $L_{Local}$)

作者不强求scATAC-seq的嵌入与scRNA-seq的嵌入完全相同,而是要求它们的局部邻域结构保持一致。

在每个mini-batch中,分别计算scRNA-seq参考嵌入的成对余弦相似度矩阵 $S_g$,和scATAC-seq潜在嵌入的成对余弦相似度矩阵 $S_p$。然后,通过最小化这两个相似度矩阵之间的欧氏距离,来软性地对齐两个模态。

\[L_{Local} = \sum_{i=1}^M d(S_g^i, S_p^i)\]

这种结构对齐而非点对齐的策略,给了模型更大的灵活性。它允许两种模态的嵌入存在差异,只要它们能保持相似的细胞间相对关系即可。这极大地降低了将scRNA-seq的噪声传递给scATAC-seq的风险。

⚪ 最终目标函数与混合训练

SAILERX的最终损失函数是上述两个损失的加权和:

\[L = L_{Inv} + \gamma L_{Local}\]

权重 $\gamma$ 并非一个固定的超参数,而是根据每个细胞在两种模态中的测序深度之比动态计算的。这使得模型能够自动地为scATAC-seq数据质量较低的细胞,从scRNA-seq中借用更多的信息。

⚪ 混合训练 (Hybrid Training)

SAILERX的框架还允许进行混合训练。即当作者有一个配对的多组学数据集,和一个只有scATAC-seq的单模态数据集时,可以将它们一起训练。对于配对数据,模型使用完整的损失函数。对于单模态数据,则只使用不变性表征学习损失 $L_{Inv}$。

通过这种方式,可以利用高质量的配对数据,来提升对独立的、质量可能较低的单模态数据的分析效果。

3. 实验分析

作者在三个来自10x Genomics, SHARE-seqSNARE-seq平台的配对多组学数据集上,对SAILERX的性能进行了全面的评估,并与Signac(WNN), Schema, Cobolt, Seurat, scVI等多种SOTA方法进行了比较。

3.1 实验一:整合与聚类性能

作者首先在PBMC 10k数据集上测试了不同方法的整合与聚类效果。

在另外两个数据集(SNARE-seqShare-seq)上,SAILERX同样取得了最佳的聚类性能。

3.2 实验二:混合训练提升单模态数据分析

作者展示了SAILERX的混合训练能力,即利用一个高质量的PBMC 10k多组学数据集,来辅助分析一个只有scATAC-seqPBMC 3k数据集。

3.3 实验三:促进下游分析

作者进一步探究了SAILERX高质量的嵌入,如何促进下游的生物学发现。

作者在SNARE-seq数据中,对PvalbL5 PT两种神经元进行了差异motif分析。结果显示,在SAILERX的聚类结果上计算出的motif富集z-score,显著高于所有其他方法。这意味着SAILERX的整合结果,能够帮助我们更灵敏地发现细胞类型特异性的调控因子(如MefPOU家族TF)。

3.4 实验四:数据插补

最后,作者评估了SAILERX数据插补(imputation)方面的能力,并与MAGICscOpen进行了比较。

作者进一步在插补后的数据上重复了motif富集分析,发现其富集信号比在原始数据上更强。这证明SAILERX的插补不仅是数学上的填空,更是生物学上有意义的信号恢复。