SCIM: 不成对特征集的通用单细胞匹配.
0. TL; DR
SCIM (Single-Cell data Integration via Matching)是一种可扩展的、旨在恢复两种或多种技术间细胞对应关系的方法。SCIM假设不同技术测量下的细胞共享一个共同的低维潜在结构,将细胞配对问题形式化为一个二分图匹配问题,并利用高效的网络流算法(最小成本最大流)来寻找最优的细胞配对方案。
在模拟的细胞分化过程数据上,SCIM恢复的细胞配对关系与真实的伪时间顺序高度相关。在真实的黑色素瘤和人骨髓样本中,SCIM在配对scRNA-seq和CyTOF数据时,分别实现了高达90%和78%的细胞类型匹配准确率。
1. 背景介绍
单细胞技术能够以前所未有的粒度,从转录组、蛋白质组、基因组等多个层面剖析组织微环境。每一种技术都像一个独特的镜头,展现了细胞状态的不同侧面。为了获得对生物系统最全面的理解,将这些来自不同镜头的视图整合起来至关重要。
然而,一个严峻的现实是,大多数单细胞分析技术都是破坏性的——细胞在被测量后即被消耗。这意味着,当我们用scRNA-seq分析一批细胞,再用CyTOF(质谱流式细胞术)分析另一批来自同一组织样本的细胞时,失去了细胞间的一一对应关系。如何在这种特征不匹配、细胞不配对的情况下为细胞重新建立联系,是单细胞多组学整合领域最核心、也最普遍的挑战之一。
现有的方法大多存在局限性:
- 依赖特征对应: 像Seurat、LIGER等方法,通常需要特征之间存在某种对应关系(如基因名相同)才能进行整合。这限制了它们在整合完全异构的模态(如基因表达与细胞形态图像)时的应用。
- 受限于特定数据类型或结构:一些方法(如MATCHER)假设数据背后存在一维的、单调的潜在结构(如简单的时间序列),这无法处理复杂的分支状分化过程。
- 可扩展性差:另一些方法(如MMD-MA、UnionCom)依赖于计算大型核矩阵,当细胞数量巨大时,其计算和内存开销变得难以承受。
因此需要一个通用、可扩展、且不依赖特征对应的框架,来解决这个普遍的细胞匹配问题。
2. SCIM 方法
SCIM通过两个核心步骤,将一个源技术(source technology)的细胞与一个或多个目标技术(target technologies)的细胞进行匹配。

2.1 步骤一:构建技术不变量的潜在空间
SCIM的目标是学习一个共享的潜在空间,在这个空间中,细胞的表示与其来源的技术无关。这是通过一个带有对抗性目标的自编码器(Autoencoder)框架实现的。
SCIM为每一种技术(模态$k$)都构建一个独立的变分自编码器(VAE),包含一个编码器 $w_k$ 和一个解码器 $\phi_k$。编码器 $w_k$ 负责将该模态的高维数据 $x_k$ 映射到一个共享的、低维的潜在空间,得到潜在表示 $z_k$。解码器 $\phi_k$ 负责从潜在表示 $z_k$ 中重构出原始数据 $\tilde{x}_k$。
为了确保不同模态的潜在表示 $z_k$ 能够被整合到同一个空间并变得不可区分,SCIM引入了一个判别器网络(Discriminator, $\psi$)。判别器是一个二分类器,它的任务是去分辨一个给定的潜在表示$z$到底是来自源技术,还是来自目标技术。整个框架的训练过程是一场对抗博弈:判别器$\psi$ 努力最大化其分类准确率,而每个模态的编码器$w_k$ 则努力生成让判别器混淆的潜在表示,即最小化判别器的分类准确率。这个对抗过程的目标函数可以形式化为:
\[L(x_t, \hat{z}_s, w_t, \phi_t) = L_{nll}(x_t, w_t, \phi_t) + \beta L_{adv}(\hat{z}_s, \hat{z}_t, w_t)\]其中$L_{nll}$ 是标准的VAE重构损失(负对数似然),确保潜在表示包含了足够的信息来恢复原始数据。$L_{adv}$ 是对抗性损失,即判别器的分类误差。编码器通过最大化这个误差,来欺骗判别器。$\beta$ 是一个超参数,用于权衡重构质量和整合程度。
为了解决对抗训练中潜在空间可能出现的方向翻转问题(即两个模态的流形结构对齐了,但方向相反),SCIM采用了半监督策略。在训练时,为一小部分细胞(如10%)提供其粗略的类别标签(如细胞大类),并将其作为额外信息输入判别器。这少量的监督信号足以帮助模型正确地定向潜在空间,稳定训练过程。
2.2 步骤二:基于二分图匹配的细胞配对
在学习到一个高质量的、技术不变量的潜在空间后,每个细胞都有了一个低维的坐标。下一步,就是在这个空间中为细胞寻找最佳配对。
作者将细胞配对问题形式化为一个经典的组合优化问题:二分图上的最大权重匹配(Maximum Weight Matching),也等价于最小成本最大流(Minimum-Cost Maximum-Flow)问题。
构建一个二分图,图的两边分别是源技术和目标技术的细胞。任意两个跨技术的细胞之间的边的成本(cost),定义为它们在潜在空间中的欧氏距离。目标是找到一个匹配方案,使得所有配对细胞的总距离(总成本)最小。
由于单细胞数据集的规模巨大,直接在所有细胞对上构建完整的二分图并求解,在计算上是不可行的。因此,SCIM首先通过构建一个k-最近邻(kNN)图来大大稀疏化问题。对于每个细胞,只考虑其$k$个最可能的匹配候选(即在潜在空间中距离最近的$k$个细胞),从而极大地减少了需要考虑的边的数量。
在真实的生物样本中,由于采样偏差,一个数据集中可能存在另一个数据集中没有的细胞。为了处理这种情况,SCIM在二分图中引入了一个空节点(null node)。任何细胞都可以选择与这个空节点匹配,但需要付出较高的惩罚成本。这使得那些在另一个数据集中找不到合适匹配的细胞,能够被优雅地处理,而不是被强行错误匹配。
当两个数据集的细胞数量不同时(例如,scRNA数据比CyTOF数据少),SCIM允许一对多的匹配。这是通过调整网络流模型中汇点的容量来实现的。
通过以上设计,SCIM能够高效、鲁棒地在整合后的潜在空间中,为大规模、不均衡、且可能包含特有细胞群的数据集找到最优的细胞配对。
3. 实验分析
作者在模拟数据集和两个真实的、来自肿瘤和健康样本的多组学数据集上,对SCIM的性能进行了验证。
3.1 实验一:模拟数据的轨迹对齐
作者使用PROSSTT工具生成了三个模拟的单细胞数据集,它们共享一个复杂的分支状伪时间轨迹,但特征完全不相关。
SCIM成功地整合了这三个模拟数据集。更重要的是,通过SCIM找到的细胞配对,其伪时间值高度相关(Pearson相关系数0.86,Spearman相关系数0.83)。在密度图上可以看到,绝大多数配对都落在了对角线附近,表明SCIM准确地恢复了细胞在分化轨迹上的相对位置。绝大多数的错误匹配都发生在轨迹的分支点,这符合生物学预期,因为在这些点上细胞身份本身就是模糊的。

3.2 实验二:整合黑色素瘤样本的scRNA与CyTOF数据
作者使用SCIM来匹配来自同一个黑色素瘤患者样本的scRNA-seq数据和CyTOF(蛋白质)数据。
SCIM成功地将两种模态的数据整合到了一个统一的t-SNE空间中。基于这个空间进行的细胞配对,在恢复细胞大类标签(T细胞 vs. B细胞)方面的准确率高达90%。

作者进一步检查了配对细胞的marker表达。结果显示,配对细胞的CD20(B细胞marker)和CD3(T细胞marker)在RNA水平和蛋白水平均表现出显著的正相关(Pearson相关系数分别为0.63和0.51)。考虑到RNA和蛋白质表达之间普遍存在的弱相关性,这是一个非常强的信号,证明了SCIM匹配的生物学意义。
相比于直接在原始数据空间(只使用共享特征)中进行匹配,SCIM基于潜在空间的匹配能够利用到几乎所有(>98%)的细胞,而前者只能利用不到30%的细胞,且效果不佳。
3.3 实验三:恢复人骨髓样本中的T细胞亚群
作者进一步测试了SCIM在更精细的细胞亚群上的匹配能力,目标是匹配来自人骨髓样本的scRNA和CyTOF数据中的T细胞亚群(如CD8效应T细胞,CD4初始T细胞,CD4记忆T细胞)。
即便是在这些转录谱和蛋白谱都高度相似的T细胞亚群之间,SCIM依然取得了高达78%的亚群匹配准确率(在使用10%标签的半监督模式下)。如果只考虑区分CD4和CD8这两大类,准确率更是提升到了86%。
结果表明,即使只使用极少数(10%)的细胞标签来辅助训练,SCIM也能够学习到一个高质量的、方向正确的潜在空间,并实现精准的细胞亚群匹配。
这些实验结果充分证明了SCIM作为一个通用框架,在处理无特征对应的、异构单细胞多组学数据整合与匹配问题上的强大能力和广泛适用性。