scMCs:单细胞多组学数据集成和多聚类框架.
0. TL; DR
scMCs (single-cell data fusion based Multiple ClusteringS) 是一个能够联合建模单细胞转录组和表观组数据,并能探索多种不同聚类模式的方法。scMCs 挖掘出组学特异性(omics-specific)和跨组学一致性(cross-omics consistent)的表征,然后将它们融合为一个共嵌入表征(co-embedding representation)。
实验结果表明,scMCs能够有效地识别亚细胞类型、插补dropout事件,并通过给出不同但有意义的聚类结果,揭示出细胞多样的生物学特性。
1. 背景介绍
单细胞多组学技术,特别是scRNA-seq和scATAC-seq的联合分析,为我们深入理解基因调控和细胞异质性提供了强大的工具。然而这些数据面临固有的稀疏性、噪声和维度不匹配等挑战。现有的整合方法虽然层出不穷,但大多存在两个关键的局限性:
- 个体性与共性的失衡:
- 许多方法(如基于矩阵分解的JSNMF或流形对齐的UnionCom)倾向于将不同模态的数据强制投影到一个共享的潜在空间中,以捕捉它们的共性(commonality)。然而,这往往以牺牲每个模态独特的个体性(individuality)为代价。
- 另一些方法(如DCCA)则为每个模态学习独立的潜在空间,更侧重于保留个体性,但在捕捉共性方面可能稍显不足。
- 一个理想的整合模型,应该能够同时捕捉并有效融合这两种信息,以获得一个更全面、更具区分度的细胞表征。
- 单一聚类视角的局限:
- 现有的几乎所有单细胞聚类方法,其最终目标都是找到一个最优的细胞类型划分。
- 然而,在复杂的生物系统中,细胞的身份是多维度的。除了按类型划分,它们还可以按功能、状态(如激活、静息)、发育阶段或组织特异性等多种方式进行划分。
- 只提供一种聚类结果,就像只用一个角度去观察一个多面体,必然会错过很多重要的信息。
为了突破这些局限,作者提出了一个全新的框架。它不仅要解决个体性与共性的融合问题,更要从多组学数据中,挖掘出多种有意义的、可供选择的细胞划分方案。
2. scMCs 方法
scMCs的框架包含两个核心模块:一个用于数据融合与单聚类的模块,另一个用于挖掘多重聚类的模块。

2.1 模块一:多组学数据融合与共嵌入
这个模块的目标是学习一个融合了个体性和共性的、信息丰富的共嵌入表征(co-embedding representation) $Z_I$。
⚪ 学习组学个体性 (Individuality)
首先,scMCs使用两个独立的自编码器,将scRNA-seq数据 $X$ 和scATAC-seq数据 $Y$ 分别编码到各自的低维空间,得到 $Z_X$ 和 $Z_Y$。
为了从全局视角探索细胞间的相似性并强化组学特异性信号,作者引入了注意力机制。通过计算细胞间的自相关矩阵 $A_X, A_Y$,并将其与原始嵌入相乘,得到经过注意力加权的表征 $Z_{gX}$ 和 $Z_{gY}$。
\[A_X = \text{softmax}(\frac{Z_X (Z_X)^T}{\sqrt{d}}) \quad Z_{gX} = A_X Z_X\]为了进一步增强每个表征的个体性,作者设计了一个组学标签判别器。这个判别器被训练来区分一个细胞嵌入是来自RNA还是ATAC。通过一个对抗性的判别器损失 $L_{dis}$,编码器被迫学习更具模态特异性的特征。
⚪ 学习跨组学共性 (Commonality)
为了捕捉不同模态间的共享信息,scMCs引入了跨组学对比学习(cross-omics contrastive learning)策略。
首先通过一个共享的MLP(多层感知机),将 $Z_X$ 和 $Z_Y$ 投影到一个共享的语义空间中,得到 $Q_X$ 和 $Q_Y$。
然后通过最大化$Q_X$和$Q_Y$之间的互信息(Mutual Information)来优化一个对比损失 $L_{cl}$。这会拉近来自同一个细胞的不同模态的表示,从而学习到它们的共性。
\[L_{cl} = -(I(Q_X, Q_Y) + \gamma(H(Q_X) + H(Q_Y)))\]最终,将 $Q_X$ 和 $Q_Y$ 通过一个全连接层融合,得到共性表征 $Z_{XY}$。
⚪ 特征融合与数据插补
将学习到的个体性表征($Z_{gX}$, $Z_{gY}$)和共性表征($Z_{XY}$)通过一个加权求和,融合成最终的共嵌入表征 $Z_I$。
\[Z_I = Z_{XY} + k_x Z_{gX} + k_y Z_{gY}\]这个信息丰富的 $Z_I$ 被用于指导数据插补。scMCs为两种模态设计了不同的生成式解码器:
- scRNA-seq解码器: 基于ZINB(零膨胀负二项)分布,以处理dropout和过离散。
- scATAC-seq解码器: 基于伯努利(Bernoulli)分布,以处理其近二值化的特性。
通过最小化重构损失 $L_{ZINB}$ 和 $L_{Ber}$,模型在学习 $Z_I$ 的同时,也实现了对原始数据的去噪和插补。
2.2 模块二:多重聚类挖掘
这个模块旨在从共嵌入表征 $Z_I$ 中,发现多种有意义的替代性聚类。
scMCs巧妙地利用多头注意力机制(multi-head attention),将 $Z_I$ 投影到L个不同的显著子空间(salient subspaces) ${O_l}_{l=1}^L$ 中。由于每个头都有独立的、可学习的变换参数,理论上它们能捕捉到 $Z_I$ 中不同的侧面或视角。
为了确保这L个子空间能产生既多样又高质量的聚类结果,scMCs引入了两个关键的损失项:
- 冗余控制损失 ($L_{red}$): 为了增强多样性,作者利用希尔伯特-施密特独立性准则(HSIC)来量化任意两个子空间 $O_l$ 和 $O_{l’}$ 之间的依赖性(冗余度)。通过最小化所有子空间对之间的HSIC之和,模型被激励去生成相互独立的、冗余度低的子空间。
- 聚类损失 ($L_{clu}$): 为了保证高质量,作者在每个子空间中都进行聚类优化。这通过一个基于KL散度的自监督聚类损失来实现。它会迭代地优化每个子空间中的聚类中心,并强化高置信度的样本分配,从而提升每个聚类的内部紧凑度。
通过一个统一的目标函数,联合优化重构损失、冗余控制损失和聚类损失,scMCs能够以端到端的方式,同时生成L个具有高质量和多样性的替代性聚类结果。
3. 实验分析
作者在四个真实的、配对的scRNA-seq/scATAC-seq数据集上,对scMCs的性能进行了全面的评估,并与JSNMF, UnionCom, scMVAE, DCCA等SOTA方法进行了比较。
3.1 实验一:单聚类性能
首先,作者评估了scMCs在标准的单聚类任务(即找到主要的细胞类型划分)上的性能。
在所有四个数据集上,scMCs在聚类准确性(NMI和ARI指标)上均取得了最佳性能,并且在大多数情况下,其优势是统计显著的。相比于其他深度模型(如scMVAE, DCCA),scMCs的优势在于它能够同时融合个体性和共性信息。相比于浅层模型(如JSNMF, UnionCom),scMCs的优势在于其

3.2 实验二:数据插补性能
作者通过可视化和聚类指标,比较了原始数据和经过不同方法插补后的数据。结果显示,基于scMCs插补后的数据,其聚类效果(NMI和ARI)显著优于基于其他方法插补后的数据。
在AdBrain数据集上,利用scMCs插补后的scATAC数据,能够准确地识别出不同神经元亚型的marker genes和差异可及性peaks。这些结果证明,scMCs学习到的共嵌入表征 $Z_I$ 信息丰富,能够有效地指导高质量的数据插补。
3.3 实验三:多重聚类挖掘
作者展示了如何在CellMix数据集上发现一个有意义的替代性聚类。
scMCs成功地生成了两个聚类结果 $C_1$ 和 $C_2$。其中,$C_1$ 与已知的细胞系划分(ground truth $C_t$)高度一致(NMI=0.845),而 $C_2$ 则与 $C_t$ 表现出很大的差异(NMI=0.365),同时 $C_2$ 本身的聚类质量也很高(SC=0.599)。这表明 $C_2$ 是一个高质量的、非冗余的替代性聚类。

对 $C_1$ 进行marker基因分析,可以清晰地将其四个簇注释为四种已知的细胞系(H1, BJ, K562, GM12878),这验证了其作为细胞类型聚类的有效性。
对 $C_2$ 进行marker基因分析,发现其两个簇的差异基因与组织特异性(tissue specificity)高度相关。例如,簇0高表达UCHL1, CALD1等增强组织特异性的基因,而簇1则高表达TXNIP, DDIT3等降低组织特异性的基因。因此,$C_2$ 可以被解释为一个根据组织特异性高低对细胞进行的划分。
这个案例有力地证明,scMCs的多重聚类能力,能够为我们从全新的、具有生物学意义的视角来理解细胞的异质性。