通过结构相似性进行多模态单细胞数据整合分析.

paper：Integrated analysis of multimodal single-cell data with structural similarity

0. TL; DR

SAILERX是一个用于高效、鲁棒和灵活分析多模态单细胞数据的深度学习框架，它鼓励两种模态在嵌入空间中的局部结构（local structures）（通过成对相似性衡量）保持相似，采用了非对称的建模策略，scRNA-seq数据预训练好的嵌入在模型训练中保持固定，scATAC-seq数据通过一个变分自编码器进行建模和降维。

SAILERX不仅能处理配对的多组学数据，还能灵活地进行混合训练（hybrid training），即利用高质量的多组学数据来辅助和提升一个独立的、只有单一模态（如scATAC-seq）的数据集的分析质量。

1. 背景介绍

单细胞多组学技术，特别是能同时测量scRNA-seq和scATAC-seq的配对技术，为我们揭示转录与表观调控之间的相互作用提供了宝贵的机会。然而，要有效地整合这两种性质迥异的数据，并非易事。一个核心的挑战在于不同模态之间不平衡的信噪比（signal-to-noise ratio, SNR）。相比于scRNA-seq，scATAC-seq数据通常稀疏得多，噪声也更大。

许多现有的整合方法，如scAI, scMM, Cobolt等，采用了一种硬对齐（hard alignment）策略，即通过NMF或编码器-解码器网络，将两种模态的数据强行投影到一个共享的潜在空间中。这种策略基于一个强假设：不同模态的测量是同等信息量的，并且共享一个共同的分布。

然而，在现实中，这个假设往往不成立。当一个强模态（如scRNA-seq）和一个弱模态（如scATAC-seq）被强制对齐时，很容易发生过拟合：模型可能会过度学习强模态中的噪声，并将其强加到弱模态上，最终导致整合后的嵌入空间，其细胞簇的分离效果甚至比只用强模态进行分析还要差。

为了解决这个问题，作者提出了一种新的整合思路：我们是否可以不强求点对点的硬对齐，而是采用一种更软的约束？例如，只要求两种模态在潜在空间中保持相似的局部拓扑结构。基于这一思想，作者开发了SAILERX。它通过一种非对称的、以强带弱的策略，并结合不变性表征学习，旨在实现更鲁棒、更灵活的多组学数据整合。

2. SAILERX 方法

SAILERX的核心思想是，利用scRNA-seq作为教师模态，来指导scATAC-seq学生模态的学习，但这种指导不是通过强制嵌入向量完全一致，而是通过保持两者局部结构相似性的软约束来实现的。

SAILERX的架构是非对称的，它主要围绕一个用于处理scATAC-seq数据的VAE构建。scRNA-seq数据被视为信息更丰富的参考（reference）模态。作者首先对其进行预处理和降维（如使用PCA），得到一个固定的参考嵌入。在SAILERX的主要训练过程中，这个参考嵌入不会被更新。

scATAC-seq数据是模型的主要学习对象。它被输入到一个变分自编码器中。编码器负责将高维的scATAC-seq peak矩阵 $x_p$，编码到一个低维的潜在空间，得到潜变量 $z$ 的后验分布 $q_\phi(z|x_p)$。解码器负责从潜变量 $z$ 中，重构出原始的peak矩阵。

SAILERX的训练由两个核心的损失函数驱动。

⚪ 不变性表征学习损失 (Invariant Representation Learning, $L_{Inv}$)

$L_{Inv}$ 旨在学习一个对技术性噪声（如批次效应、测序深度）不敏感的、不变的潜在表征。该损失项基于一个不变性风险最小化（IRM）的原则。它要求模型学习到的潜变量 $z$ 与已知的混杂因素 $c$（如批次标签、测序深度）相互独立。通过在标准的VAE ELBO损失的基础上，增加一个惩罚 $z$ 和 $c$ 之间互信息的项来实现。

\[L_{Inv} = L_{VAE} + \lambda I(z, c)\]

最终，这个损失可以近似为一个经过调整的ELBO：

\[L_{Inv} \ge \mathbb{E}[-KL[q(z|x)\|p(z)]] + (1+\lambda)\mathbb{E}[\log p(x|z,c)] - \lambda KL[q(z|x)\|q(z)]\]

通过这个损失函数，模型被激励去将与混杂因素 $c$ 相关的信息，从潜变量 $z$ 中剥离出去，从而得到一个更纯净的、只反映生物学差异的表征。

⚪ 局部结构对齐损失 (Local Alignment Loss, $L_{Local}$)

作者不强求scATAC-seq的嵌入与scRNA-seq的嵌入完全相同，而是要求它们的局部邻域结构保持一致。

在每个mini-batch中，分别计算scRNA-seq参考嵌入的成对余弦相似度矩阵 $S_g$，和scATAC-seq潜在嵌入的成对余弦相似度矩阵 $S_p$。然后，通过最小化这两个相似度矩阵之间的欧氏距离，来软性地对齐两个模态。

\[L_{Local} = \sum_{i=1}^M d(S_g^i, S_p^i)\]

这种结构对齐而非点对齐的策略，给了模型更大的灵活性。它允许两种模态的嵌入存在差异，只要它们能保持相似的细胞间相对关系即可。这极大地降低了将scRNA-seq的噪声传递给scATAC-seq的风险。

⚪ 最终目标函数与混合训练

SAILERX的最终损失函数是上述两个损失的加权和：

\[L = L_{Inv} + \gamma L_{Local}\]

权重 $\gamma$ 并非一个固定的超参数，而是根据每个细胞在两种模态中的测序深度之比动态计算的。这使得模型能够自动地为scATAC-seq数据质量较低的细胞，从scRNA-seq中借用更多的信息。

⚪ 混合训练 (Hybrid Training)

SAILERX的框架还允许进行混合训练。即当作者有一个配对的多组学数据集，和一个只有scATAC-seq的单模态数据集时，可以将它们一起训练。对于配对数据，模型使用完整的损失函数。对于单模态数据，则只使用不变性表征学习损失 $L_{Inv}$。

通过这种方式，可以利用高质量的配对数据，来提升对独立的、质量可能较低的单模态数据的分析效果。

3. 实验分析

作者在三个来自10x Genomics, SHARE-seq和SNARE-seq平台的配对多组学数据集上，对SAILERX的性能进行了全面的评估，并与Signac(WNN), Schema, Cobolt, Seurat, scVI等多种SOTA方法进行了比较。

3.1 实验一：整合与聚类性能

作者首先在PBMC 10k数据集上测试了不同方法的整合与聚类效果。

图A (UMAP可视化): SAILERX的UMAP图展现了最清晰的细胞簇结构。它不仅继承了scRNA-seq（Seurat）参考嵌入的良好分离度，还通过整合scATAC-seq的信息，成功地将B细胞的亚群（红圈所示）进行了更精细的区分，这是仅使用scRNA-seq无法做到的。
图B (定量评估):** 在ARI, NMI和Silhouette三个聚类评估指标上，SAILERX的得分全面最高，显著优于所有其他单模态和多模态整合方法。
图C (参考嵌入的影响): 作者进一步测试了使用不同的scRNA-seq嵌入方法（scVI, scANVI, Scanorama）作为参考。结果显示，无论使用哪种参考，SAILERX的整合结果都稳定地优于原始的参考嵌入。这证明了SAILERX信息融合策略的有效性和鲁棒性。

在另外两个数据集（SNARE-seq和Share-seq）上，SAILERX同样取得了最佳的聚类性能。

3.2 实验二：混合训练提升单模态数据分析

作者展示了SAILERX的混合训练能力，即利用一个高质量的PBMC 10k多组学数据集，来辅助分析一个只有scATAC-seq的PBMC 3k数据集。

图B (UMAP可视化): 经过与10k数据的混合训练后，PBMC 3k数据的UMAP图展现出了比单独分析时（Signac）或与其他方法（Cobolt）联合分析时更清晰的细胞簇结构。
图C (定量评估): 在所有聚类指标上，混合训练后的SAILERX均取得了最佳性能。这证明，通过借用高质量多组学数据的信息，SAILERX能够显著提升对低质量单模态数据的分析效果。

3.3 实验三：促进下游分析

作者进一步探究了SAILERX高质量的嵌入，如何促进下游的生物学发现。

作者在SNARE-seq数据中，对Pvalb和L5 PT两种神经元进行了差异motif分析。结果显示，在SAILERX的聚类结果上计算出的motif富集z-score，显著高于所有其他方法。这意味着SAILERX的整合结果，能够帮助我们更灵敏地发现细胞类型特异性的调控因子（如Mef和POU家族TF）。

3.4 实验四：数据插补

最后，作者评估了SAILERX在数据插补（imputation）方面的能力，并与MAGIC和scOpen进行了比较。

图A (UMAP可视化): SAILERX插补后的scATAC-seq数据，其UMAP图最好地保留了细胞类型的景观，簇结构最清晰。
图6 (定量评估): 在所有聚类指标上，SAILERX插补后的数据也取得了最佳性能。

作者进一步在插补后的数据上重复了motif富集分析，发现其富集信号比在原始数据上更强。这证明SAILERX的插补不仅是数学上的填空，更是生物学上有意义的信号恢复。