SMILE:单细胞组学数据整合的互信息学习.
0. TL; DR
SMILE (Single-cell Mutual Information Learning)是一种通过最大化互信息来学习单细胞数据可区分表征的无监督深度学习算法,通过细胞配对设计,模型被训练来最大化正样本对在潜在空间中的相似性,同时最小化与负样本的相似性,从而学习到一个高度可区分的联合嵌入。
SMILE 提供了三种变体 (SMILE, pSMILE, mpSMILE),以适应不同的整合场景:
- 水平整合(Horizontal Integration): 在整合来自多个来源的单细胞转录组数据时,SMILE 通过自配对(self-pairing)的策略,有效去除批次效应,将不同组织来源的相似细胞类型投影到共享空间中。
- 垂直整合(Vertical Integration): 在整合具有配对细胞但特征不匹配的多组学数据(如RNA-seq/ATAC-seq或Methyl/Hi-C)时,pSMILE 和 mpSMILE 利用已知的细胞配对关系,学习一个能够融合异构特征的联合表征。
SMILE 学习到的整合表征,不仅能用于细胞类型注释,还能作为框架来比较独立的单来源数据。作者展示了如何利用 SMILE 识别出对定义细胞类型至关重要的基因和染色质可及性区域。通过组合式的应用,SMILE 能够整合超过两种模态的数据。
1. 背景介绍
深度学习正在彻底改变单细胞组学分析的范式,从细胞类型注释、基因表达插补到双细胞(doublet)识别,其强大的表征学习能力正不断带来新的生物学洞见。
与此同时,单细胞领域正面临一个日益严峻的挑战:数据整合。随着海量数据集的涌现,我们需要将来自不同来源、不同技术、甚至不同模态的数据有效地整合在一起,以构建一个更全面的细胞生物学视图。
根据数据之间的关系,单细胞数据整合可以大致分为三种模式:
- 水平整合 (Horizontal Integration):整合多个具有相同特征(如都是基因)但不同细胞的数据集。最典型的例子就是去除多个scRNA-seq数据集之间的批次效应。这种方法依赖于特征锚点(feature anchors),即共享的基因集。
- 垂直整合 (Vertical Integration):整合多个具有相同细胞但不同特征的数据集。这正是联合分析(joint-profiling)技术(如sci-CAR, SHARE-seq, scMethyl-HiC)产生的数据。最大的挑战在于特征不匹配。例如,scRNA-seq的特征是基因,而scATAC-seq的特征是全基因组的peaks;scHi-C的特征甚至是二维的染色质互作。这种方法依赖于细胞锚点(cell anchors),即已知的细胞配对关系。
- 对角整合 (Diagonal Integration):数据集的细胞和特征都不同。理论上可行,但目前尚无一个被广泛验证的通用解决方案。
水平整合和垂直整合是当前最实用、最关键的两种整合策略。许多现有的整合方法或多或少存在一些局限。为此,作者设计了一个统一的、基于对比学习的深度学习框架,能够灵活地应对水平和垂直两种整合场景。
2. SMILE 方法
SMILE及其变体的核心思想是最大化互信息,并通过噪声对比估计(Noise-Contrastive Estimation, NCE)损失函数来实现。整个框架包含三种架构,以适应不同的整合任务。

2.1 SMILE的基础架构
SMILE模型主要用于水平整合(如多来源的scRNA-seq数据去批次)。核心是对比学习,而对比学习需要正负样本对。在无监督的场景下,SMILE采用了一种巧妙的自配对(self-pairing)策略:对于一个输入细胞 $x$,将其自身视为正样本。通过给 $x$ 添加一个随机高斯噪声,生成其增强版的另一个正样本。一个mini-batch中的所有其他细胞,都被视为负样本。
模型的主体是一个编码器,由多个全连接层构成,负责将输入的高维细胞表达谱 $X$ 映射到一个128维的低维表征 $z$。
为了增强表征学习的能力,SMILE在编码器之上堆叠了两个独立的单层MLP(多层感知机)作为投影头:一个头将 $z$ 进一步投影到一个32维的向量中。另一个头则将 $z$ 投影到一个$K$维的向量中,并通过SoftMax激活,得到$K$个伪细胞类型的概率。
SMILE的目标是在潜在空间中,让正样本对的相似度最大化,同时让负样本对的相似度最小化。这是通过NCE损失函数实现的。对于一个正样本对 $(i, j)$,其NCE损失定义为:
\[\text{loss}_{i,j} = -\log \frac{\exp(\text{sim}(z_i, z_j)/\tau)}{\sum_{k=1, k \ne i}^{2N} \exp(\text{sim}(z_i, z_k)/\tau)}\]其中,$\text{sim}(u, v) = u^T v / (||u||||v||)$ 是余弦相似度,$\tau$ 是一个温度超参数。总损失是分别在32维向量和$K$维概率向量上计算的NCE损失之和。
通过优化这个损失函数,编码器被迫学习一个高度可区分的(discriminative)潜在表征 $z$。
2.2 pSMILE/mpSMILE
为了处理具有配对细胞但特征不匹配的多组学数据(即垂直整合),作者设计了pSMILE和mpSMILE。
pSMILE引入了两个独立的编码器:Encoder A和Encoder B。Encoder A负责处理模态1的数据(如scRNA-seq或scMethyl),Encoder B负责处理模态2的数据(如scATAC-seq或scHi-C)。由于编码器是独立的,它们可以处理维度和特征完全不同的输入,无需进行任何特征转换。
在pSMILE中,正样本对是来自同一个细胞的不同模态测量值。例如,细胞i的RNA数据和细胞i的ATAC数据构成一个正样本对。同样,一个mini-batch中的所有其他细胞都被视为负样本。
作者发现,scRNA-seq数据通常比scATAC-seq等数据具有更强的细胞类型区分能力。为了更好地利用这一优势模态,作者提出了mpSMILE (modified paired SMILE)。在mpSMILE中,除了进行跨模态的配对外,还对scRNA-seq/scMethyl数据进行自配对(就像在基础SMILE中一样)。这相当于在训练中增加了对优势模态的对比学习任务,从而学习到一个更具区分度的联合表征。
在pSMILE/mpSMILE中,除了NCE损失,还额外增加了一个MSE损失项,以直接拉近两种模态在潜在空间中的表征 $z_a$ 和 $z_b$。
\[\text{loss}_{MSE} = \frac{1}{N} \sum_{i=1}^N \| z_a - z_b \|^2\]3. 实验分析
作者在一系列具有挑战性的真实数据集上,对SMILE及其变体的性能进行了全面的基准测试。
3.1 实验一:多来源scRNA-seq数据整合(水平整合)
作者测试了SMILE在整合来自不同技术平台、不同实验室的人类胰腺、PBMC和心脏数据集时的批次校正能力,并与LIGER, Harmony, Seurat等SOTA方法进行了比较。
SMILE在批次校正和生物学信息保留之间取得了出色的平衡,其性能与表现最好的Harmony相当。在多个评估指标上(批次轮廓系数、细胞类型轮廓系数、ARI、macro-F1),SMILE和Harmony均优于LIGER。
尽管Seurat在某些指标上表现最佳,但其计算开销巨大,在处理大规模心脏数据集时需要超过128GB的内存,而SMILE等方法仅需64GB。特别地,SMILE无需提供明确的批次标签,就能通过其自配对机制有效去除批次效应,展现了其灵活性。

3.2 实验二:多模态数据整合(垂直整合)
作者在混合细胞系、小鼠肾脏、小鼠大脑和小鼠皮肤四个联合分析数据集上,比较了mpSMILE与Seurat(CCA), MCIA, LIGER, Harmony等多种垂直和水平整合方法的性能。
实验首先证明,对于配对数据,mpSMILE, Seurat等利用了细胞配对信息的垂直整合方法,其性能普遍优于LIGER, Harmony等不使用配对信息的水平整合方法。
在所有四个数据集上,mpSMILE在模态混合(模态轮廓系数接近0)和生物学保留(细胞类型轮廓系数接近1)两个方面,均取得了最佳的综合表现。
尽管Seurat在某些数据集上表现良好,但在小鼠肾脏和小鼠大脑数据集上,它未能有效地将两种模态的数据整合到共享空间中,表明其CCA方法在处理某些复杂的非线性关系时存在局限。
mpSMILE的整合结果不仅能用于聚类,还能用于探索生物学问题。例如,通过对整合后的嵌入进行特征筛选,作者成功地识别出了对定义特定细胞类型至关重要的基因和ATAC-seq peaks。

3.3 实验三:整合特征不匹配的异构数据
这是一个极具挑战性的任务,因为scMethyl数据是一维的基因组坐标,而scHi-C数据是二维的染色质互作矩阵。它们之间没有显而易见的共享特征。
由于p/mpSMILE的双编码器架构不要求输入数据具有共享特征,它能够自然地处理这类异构数据。pSMILE成功地将来自mESC和NMuMG两种细胞系的scMethyl和scHi-C数据整合到了一个共享空间中,并清晰地分开了两种细胞系。

作者也发现,在更复杂的人类PFC(前额叶皮层)数据中,由于scHi-C数据区分神经元亚型的能力远弱于scMethyl数据,简单的整合未能完全分离所有亚型。通过将Hi-C数据投影到Methyl数据的t-SNE空间中,虽然能对齐大部分细胞类型,但神经元亚型仍然混杂。这揭示了在信息不对称的模态间进行整合的固有挑战。

3.4 实验四:整合超过两种模态的数据
作者进一步展示了如何组合式地应用SMILE和pSMILE来整合包含scRNA-seq和五种不同组蛋白修饰的Paired-Tag数据。
首先,使用基础的SMILE模型,将来自六个不同批次的scRNA-seq数据进行整合,学习一个统一的RNA表征。然后,将这个训练好的RNA编码器作为教师网络(权重冻结),分别与五种组蛋白修饰数据配对,训练五个独立的pSMILE模型,将它们逐一投影到RNA的潜在空间中。最终,所有六种模态的数据都被成功地整合到了同一个UMAP空间中,细胞按类型而非模态聚集,证明了该策略的有效性和SMILE框架的可扩展性。
