通过弱链接特征整合跨模态的空间和单细胞数据.

0. TL; DR

MaxFuse (Matching X-modality via fuzzy smoothed embedding)是一种单细胞多组学数据的迭代式整合方法。MaxFuse不只依赖于少数、不可靠的链接特征,而充分利用每个模态内所有特征蕴含的丰富信息来辅助和增强对齐过程。MaxFuse通过联合嵌入 -> 模糊平滑 -> 细胞匹配,将所有特征中蕴含的细胞相似性信息,逐步地、迭代地灌注到对齐过程中。

在多个极具挑战性的弱关联场景(如RNA-蛋白、蛋白-ATAC)的基准测试中,MaxFuse的性能全面且大幅度超越了Seurat、Liger、Harmony、BindSC等一系列SOTA方法,在关键评估指标上取得了20%~70%的相对提升。此外,MaxFuse在整合空间蛋白质组学(如CODEX)和单细胞测序数据方面表现出色,成功地将全转录组和表观组信息映射到了高分辨率的组织原位图像上。

1. 背景介绍

单细胞多组学整合的目标,是将来自不同实验、测量不同分子(模态)的细胞进行对齐和匹配。所有整合方法的基石,都是利用两种模态之间共有的或可相互预测的链接特征(linked features)。例如,在整合scRNA-seqscATAC-seq时,每个基因的表达量和其对应的基因活性得分(由ATAC-seq数据计算而来)就是一对链接特征。

当链接特征数量多、且跨模态相关性强时(强链接场景),许多现有方法都能取得不错的效果。RNA-ATAC整合就是典型的强链接场景。在弱链接场景下,链接特征数量少,比如空间蛋白质组学(如CODEX)通常只能测量几十个蛋白,当它与测量了上万个基因的scRNA-seq整合时,可用的链接特征(蛋白及其编码基因)屈指可数;且链接特征相关性弱,例如由于复杂的转录后调控,一个基因的mRNA水平和其编码的蛋白质水平之间往往只有微弱的相关性。

在弱链接场景下,那些严重依赖链接特征的传统方法,其性能会急剧下降,因为它们赖以对齐的“锚点”本身就不牢固。因此需要一种新的整合策略,将全局信息和链接信息有机地结合起来,即使在链接信号微弱的情况下,也能稳健地完成精准整合。

2. MaxFuse 方法

MaxFuse的流程分为三个阶段:初始化、迭代优化、后处理。

2.1 阶段一:初始化 (Initialization)

初始化阶段的目标是利用链接特征,得到一个粗糙但可用的初始细胞匹配。MaxFuse的输入是两对矩阵:

MaxFuse分别在两个所有特征矩阵 $Y$ 和 $Z$ 上,为每个细胞构建一个k-近邻图($G_Y, G_Z$)。这两个图蕴含了每个模态内部最完整、最可靠的细胞相似性结构。

MaxFuse通过模糊平滑 (Fuzzy Smoothing) 来去噪和增强链接特征。具体做法是,将每个细胞的链接特征向量,替换为它自己和它邻居们的链接特征向量的加权平均。

\[\tilde{Y}^{\circ}_m = \mathcal{S}_Y(Y^{\circ}_m; w_0) = w_0 Y^{\circ}_m + (1-w_0) \mathcal{A}_Y(Y^{\circ}_m)\]

其中,$\mathcal{A}_Y(Y^{\circ}_m)$ 表示在图 $G_Y$ 上对 $Y^{\circ}_m$ 进行邻居平均(平滑)操作,$w_0$ 是一个权重。这个操作的直觉是:如果一个细胞的链接特征是异常值,那么通过与它相似的邻居进行平均,可以有效地校正噪声,增强真实的生物学信号。

在经过平滑的链接特征 $\tilde{Y}^{\circ}_m$ 和 $\tilde{Z}^{\circ}_m$ 上,计算两个数据集中细胞两两之间的距离,然后通过一个高效的线性分配(Linear Assignment)算法,求解一个最小权重完美匹配,得到一个初始的细胞配对关系 $\hat{\Pi}^{(0)}$。这些初始配对的细胞被称为初始枢轴(initial pivots)

2.2 阶段二:迭代优化 (Iterative Refinement)

MaxFuse的迭代优化不断提升匹配质量。在第 $t$ 次迭代中,利用上一步得到的匹配枢轴 $\hat{\Pi}^{(t-1)}$,只在这些配对的细胞上,使用所有特征($Y_m$ 和 $Z_m$)来学习一个典型相关性分析 (Canonical Correlation Analysis, CCA) 模型。CCA会找到两组线性投影(loading vectors, $C_y, C_z$),使得投影后的细胞(即CC scores)相关性最大。

然后,将这个CCA模型应用到所有细胞上,得到一个跨模态的联合嵌入 ${Y_{m}^{cc, (t)}, Z_{m}^{cc, (t)}}$。利用在阶段一中构建好的、固定不变的all-feature NN-graphs ($G_Y, G_Z$),对联合嵌入进行平滑。

\[\tilde{Y}_{m}^{cc,(t)} = \mathcal{S}_Y(Y_{m}^{cc, (t)}; w_1) \\ \tilde{Z}_{m}^{cc,(t)} = \mathcal{S}_Z(Z_{m}^{cc, (t)}; w_1)\]

在平滑后的联合嵌入上,再次计算细胞间的距离,并运行线性分配算法,得到一个更新后的、质量更高的匹配关系 $\hat{\Pi}^{(t)}$。

这个嵌入-平滑-匹配的循环会迭代进行$T$次。每一次循环,都相当于把所有特征中蕴含的结构信息,通过CCA和模糊平滑,更深地注入到匹配过程中,从而不断修正和完善细胞的配对关系。

2.3 阶段三:后处理 (Post-processing)

首先对最后一次迭代得到的匹配对进行筛选,去掉低质量的匹配,得到精炼枢轴(refined pivots)。然后,对于那些没有被匹配上的细胞,采用匹配传播的策略:在各自模态内部,找到离它最近的那个属于精炼枢轴的细胞,并将该枢轴的匹配关系传递给它。

MaxFuse最终提供两个核心输出:

3. 实验分析

作者在多个具有“金标准”(即已知真实细胞配对关系)的多组学数据集上,对MaxFuse进行了严格的基准测试,并与Seurat V3, Liger, Harmony, BindSCSOTA方法进行了比较。

3.1 实验一:整合RNA与蛋白质(CITE-seq)

对于包含228个蛋白的CITE-seq数据集,在所有六个评估指标上,MaxFuse都取得了压倒性的胜利。在细胞类型级别的匹配准确率上,MaxFuse达到了93.9%,比第二名高出超过7%。在更精细的单细胞级别匹配指标(如FOSCTTM)上,MaxFuse的性能提升更为显著,相对提升幅度达到20%~70%

UMAP可视化清晰地表明,MaxFuse的整合结果在模态混合和生物学结构保留两个方面都做得最好。特别地,它成功地解析出了B细胞从幼稚(naive)到中间态(intermediate)再到记忆(memory)的精细分化轨迹,这是其他方法都未能做到的。

为了模拟了更具挑战性的场景,作者将用于链接的蛋白数量从228个逐步减少到100个、50个,甚至只有30个。结果显示,MaxFuse的性能虽然有下降,但依然远超所有其他方法。当只有30个链接蛋白时,MaxFuse的细胞类型匹配准确率仍有约90%,而其他方法的准确率则跌至15%~75%不等。这充分证明了MaxFuse在极端弱链接场景下的非凡鲁棒性。

3.2 实验二:更多样的多组学数据

作者进一步在四个不同技术平台、不同模态组合的数据集上进行了测试,包括CITE-seq(骨髓), Ab-seq(骨髓), ASAP-seq(蛋白+ATAC)和TEA-seq(蛋白+ATAC)。

在所有这四个背景各异的数据集上,MaxFuse无一例外地取得了最佳的综合性能。无论是在细胞类型匹配准确率,还是在衡量嵌入质量的F1分数上,MaxFuse都稳定地处于领先地位。这证明了MaxFuse是一个通用性极强,不依赖特定模态组合的强大整合工具。

3.3 实验三:空间多组学分析

MaxFuse能够整合空间蛋白质组学数据(如CODEX)和单细胞测序数据。以人类扁桃体组织为例,整合了包含46个蛋白的CODEX数据和scRNA-seq数据。

在这个极具挑战性的任务中,MaxFuse是唯一能够成功整合两种模态的方法。其他方法均告失败,无法在去除技术差异的同时保留细胞类型结构。

借助MaxFuse的精准匹配,作者成功地将scRNA-seq测得的全转录组信息投射到了CODEX的高分辨率空间图像上。作者检验了一些已知在生发中心(GC)内外有特异性空间分布的基因(这些基因并未包含在CODEX的蛋白panel中),发现MaxFuse预测的基因表达空间模式与已知的生物学知识完美吻合。例如,GC内的marker BCL6 表达量在GC边界内最高,而记忆B细胞marker CCR6 则在GC边界外逐渐升高。这一结果甚至得到了后续RNAscope实验的验证。

利用匹配上的scRNA-seq的细胞类型标签,MaxFuseCODEX细胞提供了高质量的自动注释,其准确率(近90%)远超专门为CODEX数据设计的注释工具CELESTAAstir(70-75%)。