非配对和配对单细胞多组学数据的引导式共聚类迁移.

0. TL; DR

GuidedCoC (Guided Co-clustering Transfer)能够从非配对的scRNA-seq源数据中迁移结构性知识,以提升配对的scRNA-seq/scATAC-seq目标数据中的细胞聚类和特征对齐效果。

在多个基准数据集上的广泛实验表明,与现有方法相比,GuidedCoC在聚类准确性和生物学可解释性方面均取得了更优的性能。

1. 背景介绍

单细胞多组学技术,特别是那些能同时测量同一个细胞的scRNA-seqscATAC-seq的配对技术,为我们直接关联基因表达与表观调控提供了宝贵的数据。然而,这些珍贵的数据也伴随着固有的挑战:技术噪声大、数据稀疏,而且高质量、大规模的配对数据集仍然相对稀缺。

与此同时,单细胞生物学领域已经积累了海量的、高质量的非配对 scRNA-seq数据集,例如Tabula MurisHuman Cell Atlas等大型细胞图谱。这些图谱级别的scRNA-seq数据,即便没有人工注释,其内在的聚类结构也已经能够很好地反映已知的细胞类型。

这就引出了一个极具吸引力的想法:我们能否利用这些高质量非配对 scRNA-seq数据中蕴含的、鲁棒的生物学结构信息,作为一种先验知识或指导,来帮助我们更好地分析那些稀疏、嘈杂的配对多组学数据?这代表了一种从传统的单数据集分析到知识迁移增强分析的范式转变。

现有的计算整合方法虽然发展迅速,但大多存在局限:

为了弥补这些空白,作者提出了GuidedCoC,以一种无监督的方式,将高质量非配对 scRNA-seq数据中的结构知识,迁移到配对 scRNA-seq/scATAC-seq数据的分析中,同时实现细胞和特征两个层面的精准对齐。

2. GuidedCoC 方法

GuidedCoC的核心思想是构建一个统一的、基于信息论的优化目标,通过共聚类的方式,同时对细胞和特征进行跨模态、跨域的划分。

2.1 单个数据集的共聚类

作者首先回顾了经典的信息论共聚类框架。对于一个数据集(如目标scRNA-seq数据 $R^{(t)}$,一个 $n^{(t)} \times q$ 的矩阵),其目标是同时找到细胞的聚类划分 $C_Y$ 和特征的聚类划分 $C_Z$。

首先,将数据矩阵归一化,得到细胞和特征的联合概率分布 $P_{R^{(t)}}(Y,Z)$。

\[P_{R^{(t)}}(Y=y, Z=z) = \frac{(R^{(t)})_{yz}}{\sum_{y=1}^{n^{(t)}} \sum_{z=1}^{q} (R^{(t)})_{yz}}\]

共聚类的目标是最小化在聚类过程中损失的互信息。这等价于最小化原始联合分布 $P(Y,Z)$ 与一个基于聚类的重构分布 $P^*(Y,Z)$ 之间的KL散度(Kullback-Leibler divergence)

\[L_{R^{(t)}}(C_Y, C_Z) = D_{KL}(P_{R^{(t)}}(Y,Z) \| P^*_{R^{(t)}}(Y,Z))\]

其中,重构分布 $P^*$ 是通过聚类后的粗粒度分布,再利用边缘分布进行调整得到的,其形式如下:

\[P^*_{R^{(t)}}(Y=y, Z=z) = \tilde{P}_{R^{(t)}}(\tilde{Y}, \tilde{Z}) \cdot \frac{P_{R^{(t)}}(Y=y)}{\tilde{P}_{R^{(t)}}(\tilde{Y})} \cdot \frac{P_{R^{(t)}}(Z=z)}{\tilde{P}_{R^{(t)}}(\tilde{Z})}\]

其中 $\tilde{Y} = C_Y(y)$ 和 $\tilde{Z} = C_Z(z)$ 分别是细胞和特征的簇索引。

2.2 GuidedCoC: 联合优化与知识迁移

GuidedCoC将这一框架扩展到了三个数据集的场景:目标scRNA-seq数据 $R^{(t)}$,目标scATAC-seq数据 $A^{(t)}$(其特征已被转换为与RNA匹配的基因活性得分),以及源scRNA-seq数据 $R^{(s)}$。

⚪ 第一阶段:一体化共聚类

GuidedCoC的核心是一个统一的联合优化目标函数,它将三个数据集的共聚类损失线性组合在一起:

\[\min_{C_Y, C_Z} L_{R^{(t)}}(C_Y, C_Z) + \alpha L_{A^{(t)}}(C_Y, C_Z) + \beta L_{R^{(s)}}(C_Z | C_X)\]

这个目标函通过共享的聚类函数,实现了不同数据集间的耦合与知识迁移:

作者采用块坐标下降(block-coordinate descent)算法来迭代地优化这个目标函数,交替更新细胞的簇分配($C_Y$)和特征的簇分配($C_Z$),直至收敛。

⚪ 第二阶段:跨域簇匹配

在第一阶段完成后,作者已经得到了目标域的细胞聚类 $C_Y$。第二阶段的目标是,在源域的已知簇 $C_X$ 和目标域的新簇 $C_Y$ 之间,找到代表相同生物学细胞群的匹配关系。

对于源域的任意一个簇i和目标域的任意一个簇j,作者计算它们在特征空间中的平均JS散度(Average Jensen-Shannon Divergence, AJSD),以衡量它们的相似性。这是一个多对多的匹配问题。为了找到全局最优的匹配方案并避免冲突,作者通过对目标簇的标签进行多次随机置换(random permutations),并在每次置换后寻找能使所有有效匹配对的AJSD总和最小化的配置。

\[M^* = \text{argmin}_{M^{(r)}} \sum_{(i,j) \in M^{(r)}} \text{AJSD}^{(r)}(\tilde{p}_i, \tilde{q}_j)\]

这个过程能够鲁棒地识别出跨域共享的细胞群,同时将非共享的细胞群保留为未匹配状态。

3. 实验分析

作者在四个来自不同组织、物种和平台的真实多组学基准数据集上,对GuidedCoC的性能进行了全面的评估,并与MultiVI, Cobolt, scMoMaT, Seurat v5等四种SOTA方法进行了比较。

3.1 实验一:聚类性能比较

在所有四个基准数据集上,GuidedCoC在细胞聚类准确性方面(通过NMIARI指标评估)均取得了最佳性能,一致性地优于所有其他方法。特别是在第四个数据集(胰腺导管)上,GuidedCoC的优势尤为显著。作者认为,这得益于其两个核心优势:(1) 它显式地利用了高质量源数据中已知的细胞聚类结构进行指导;(2) 其统一的特征共聚类机制,同时解决了跨域和跨模态的对齐问题。

3.2 实验二:UMAP可视化

作者展示了在第一个PBMC数据集上,GuidedCoCSeurat v5UMAP可视化聚类结果对比。

GuidedCoC不仅成功地捕捉到了主要的细胞群,而且与真实标签(ground-truth)的对齐效果更好。特别地,对于那些生物学上不同但空间上邻近的细胞簇(如簇0和1,簇2和3),Seurat v5倾向于将它们部分混合,而GuidedCoC则能更好地保持它们之间的边界。这证明了GuidedCoC在保留全局可分性和局部结构一致性方面的优势。

3.3 实验三:消融研究与生物学可解释性

作者通过消融实验,分别验证了源数据指导和配对ATAC数据两个部分的重要性。移除任何一个部分都会导致模型性能的下降,这证明了GuidedCoC框架中外部知识迁移和内部跨模态整合两个机制的协同作用和不可或缺性。

作者深入分析了GuidedCoC识别出的特征簇的生物学意义。结果显示GuidedCoC能够自动地将功能相关的基因和调控元件共聚类到同一个特征簇中。这些特征簇与特定的细胞类型高度关联。例如,特征簇1和2富集了与T细胞受体复合物相关的基因,并且它们主要在被正确匹配为T细胞的细胞簇中高表达。这证明了GuidedCoC不仅能做准聚类,还能提供具有生物学可解释性的、连接了基因模块和细胞身份的洞见。

3.4 实验四:超参数敏感性、收敛性与效率

GuidedCoC对三个关键超参数——特征簇数量K、模态权重α和域权重β——在很宽的范围内都不敏感,表现出良好的鲁棒性。

优化过程在所有数据集上都能在10次迭代内快速收敛。在计算效率上,GuidedCoC也具有竞争力,在处理约3万细胞的大型数据集时,运行时间不到10分钟,排名第二。