scGCN是为单细胞组学知识迁移设计的图卷积网络算法.

0. TL; DR

scGCN利用图卷积网络(Graph Convolutional Networks, GCN)来捕捉细胞间的高阶拓扑关系。它构建一个包含参考(reference)查询(query)数据集所有细胞的混合图(hybrid graph),采用半监督学习的方式在图上传播特征和标签信息,学习一个能够将所有细胞投影到同一潜在空间的映射。

作者在总共30个单细胞组学数据集上,对scGCN进行了广泛的基准测试。结果表明,在跨组织、跨平台、跨物种,甚至跨分子层(scRNA-seq vs. scATAC-seq)的标签迁移任务中,scGCN的准确性都持续地、显著地优于现有的SOTA方法。

1. 背景介绍

单细胞测序技术的飞速发展,为我们带来了海量的组学数据。与此同时,大量的研究工作也为这些数据提供了高质量的细胞类型注释。一个自然而然且极具价值的想法是:我们能否利用这些已经带注释的数据集作为老师(即参考数据集),去自动地为那些新生成的数据集(即查询数据集)打上标签?

这个过程被称为标签迁移(label transfer)知识迁移(knowledge transfer)。如果能够实现可靠、准确的标签迁移,将极大地加速新数据的分析流程,并保证不同研究之间结果的一致性。

然而,实现这一目标并非易事。参考数据集和查询数据集之间往往存在巨大的差异,这些差异构成了标签迁移的重重障碍:

  1. 技术性差异:
    • 平台效应:数据可能来自不同的测序平台(如 10x Genomics vs. SMART-seq2)。
    • 批次效应 (batch effects): 即使平台相同,不同的实验批次、操作人员、试剂等也会引入系统性偏差。
    • 数据固有问题: 单细胞数据普遍存在dropout(技术性零值)和离散度(dispersion)等问题。
  2. 生物学差异:
    • 数据可能来自不同的组织,甚至不同的物种(如人 vs. 鼠)。
    • 数据可能来自不同的分子层面,如转录组(scRNA-seq)和表观遗传组(scATAC-seq),它们的特征空间完全不同。

现有的标签迁移方法,如Seurat v3, Conos, scmap, CHETAH等,虽然在特定场景下很有用,但它们的性能仍然有限。一个关键的原因是,这些方法大多只关注单个细胞的特征相似性,而忽略了细胞与细胞之间更高阶的拓扑关系。

图卷积网络(Graph Convolutional Networks, GCN)为解决这一问题提供了强大的武器。GCN能够在一个图结构上,通过聚合邻居节点的信息来学习每个节点的表示,从而自然地融入了图的拓扑结构信息。

受此启发,作者提出了scGCN,一个基于GCN的全新标签迁移框架。它旨在通过构建和学习一个跨数据集的细胞关系图,来实现更鲁棒、更准确的知识迁移。

2. scGCN 方法

scGCN的核心思想是构建一个连接了参考和查询数据集的混合图,然后利用图卷积网络进行半监督学习,从而将标签信息从参考集传播到查询集。

第一步:混合图构建 (Graph Construction)

scGCN的第一步是构建一个能够有效连接不同数据集的混合图(hybrid graph)。这个图由一个邻接矩阵 $A_H$ 表示。

首先,对参考数据集 $X_R$ 和查询数据集 $X_Q$ 进行标准化,并筛选出高变基因。接着作者使用典型相关性分析(Canonical Correlation Analysis, CCA),将两个数据集同时投影到一个共享的、低维的相关性空间中。这一步的目的是初步对齐两个数据集,消除部分技术差异。

CCA降维后的空间中,作者使用互近邻(Mutual Nearest Neighbor, MNN)算法来识别细胞间的映射关系。MNN被用于构建两种类型的连接:

最终的混合图邻接矩阵 $A_H$ 由上述两种图谱组合而成。它同时包含了数据集内部和数据集之间的细胞关系信息。

第二步:基于GCN的半监督学习

构建好混合图后,scGCN利用一个图卷积网来进行半监督的标签预测。

上一步构建的混合图邻接矩阵 $A_H$ 在输入模型前会被进行对称归一化处理,得到 $\tilde{A}$。节点特征矩阵$X$由参考和查询数据集的原始表达谱拼接而成。

GCN每一层每个节点(细胞)的新特征,是通过聚合其邻居节点的特征,再经过一个线性和非线性变换得到的。第$l+1$层的传播规则可以表示为:

\[H^{(l+1)} = f(H^{(l)}, \tilde{A}) = \sigma(\tilde{A} H^{(l)} W^{(l)})\]

其中,$H^{(l)}$ 是第$l$层的节点特征矩阵($H^{(0)} = X$),$W^{(l)}$ 是可学习的权重矩阵,$\sigma$ 是非线性激活函数(如ReLU)。通过堆叠多层图卷积,每个细胞的最终表示能够融合其多跳邻居的信息,从而捕捉到复杂的图拓扑结构。

scGCN采用的是一个三层的GCN。最后一层通过Softmax激活函数,输出每个细胞属于$F$个类别的概率矩阵 $\hat{Y}$。

\[\hat{Y} = f(X, A_H) = \text{softmax}(\tilde{A} \text{ReLU}(\tilde{A} X^T W^{(0)}) W^{(1)})\]

在训练过程中,模型的损失函数只计算参考数据集(其标签已知)的交叉熵损失。

\[L = - \sum_{l \in Y_L} \sum_{f=1}^F Y_{lf} \ln \hat{Y}_{lf}\]

通过最小化这个损失,模型在学习如何正确分类参考细胞的同时,其学习到的权重 $W^{(0)}, W^{(1)}$ 也隐式地将标签信息通过图结构传播到了查询数据集的细胞上。训练完成后,查询细胞的预测标签就是其在输出概率矩阵 $\hat{Y}$ 中概率最大的那个类别。

3. 实验分析

作者在总共30个、覆盖了多种挑战性场景的单细胞组学数据集上,对scGCN的性能进行了全面的基准测试,并与Seurat v3, Conos, scmap, CHETAH等四种SOTA方法进行了比较。

3.1 实验一:数据集内标签迁移

作者首先在10个不同的scRNA-seq数据集上,进行了数据集内的标签迁移测试(随机将一半细胞作为参考,另一半作为查询)。

在所有10个数据集上,scGCN的准确率都持续地优于所有其他方法。其平均准确率达到91%,显著高于Seurat v3(87%)和Conos(83%)等。

SRP073767数据集为例,scGCN在区分高度相似的T细胞亚群(如CD4+ T helper2CD4+/CD25 Treg)方面,表现出比其他方法更强的能力。混淆矩阵显示,其他方法在这些相似类型之间存在大量的误分类,而scGCN的分类则清晰得多。

3.2 实验二:跨平台标签迁移

作者接着在12个跨不同测序平台(如10x Genomics vs. SMART-seq2)的数据集对上,测试了各方法的性能。

scGCN再次取得了最佳的平均准确率(87%),显著优于scmap(66%)和CHETAH(58%)。

以一个从Cel-seq数据向10x V2数据迁移标签的案例为例,scGCN不仅成功地对齐了两个平台的数据(UMAP图显示出清晰的聚类结构),而且即使在参考数据集远小于查询集的情况下,也取得了高精度的标签迁移。混淆矩阵显示,它能准确地区分自然杀伤细胞(NK)和T细胞,以及CD14+CD16+单核细胞等相似类型,而其他方法则存在明显的混淆。

3.3 实验三:跨物种标签迁移

作者进一步挑战了最具难度的场景之一:在人类和小鼠的同源组织之间进行标签迁移。

UMAP可视化直观地显示,scGCN整合后的数据,其细胞亚群结构最清晰,而Seurat v3Conos在一些数据集上出现细胞群混杂,scmap的结果则几乎无法区分细胞类型。

定量评估证实了这一点。scGCN的平均准确率达到了87%,远高于Conos(71%)、Seurat v3(67%),更是碾压scmap(48%)和CHETAH(20%)。

这些结果强有力地证明,scGCN的图学习框架能够有效地克服物种间的巨大生物学差异,实现鲁棒的跨物种知识迁移。

3.4 实验四:跨模态标签迁移 (scRNA-seq vs. scATAC-seq)

最后,作者在跨分子层面测试了scGCN的性能,即从scRNA-seqscATAC-seq迁移细胞类型标签。

作者使用批次混合熵(batch mixing entropy)轮廓系数(silhouette coefficient)来评估整合质量。

在四个测试数据集上,scGCN在批次混合熵上均取得了最高分,表明其能够最好地混合来自两种不同模态的细胞(图a)。同时,scGCN在轮廓系数上也一致地、显著地高于Seurat v3Conos,表明其在混合数据的同时,最好地保留了细胞类型的区分度(图b)。

A549细胞系数据上,只有scGCN能够清晰地分离出经过不同时间点药物处理的细胞亚群(图c)。基于scGCN整合后的scATAC-seq数据,作者成功地进行了motif富集分析,并识别出了与DEX药物处理相关的关键转录因子(如FOXO3),其结果与已知的生物学知识相符(图de)。

这个实验证明scGCN的框架不仅适用于同类组学数据,还能被成功地应用于极具挑战性的跨模态数据整合与知识迁移任务中。