使用图卷积网络进行单细胞多组学数据集成的通用框架.

0. TL; DR

GCN-SC是一个基于图卷积网络(Graph Convolutional Network, GCN)的通用单细胞多组学数据整合框架。GCN-SC利用互近邻(Mutual Nearest Neighbors, MNN)算法构建一个混合的细胞-细胞关系图,然后通过GCN强大的信息传播能力,对查询数据集进行调整,以匹配参考数据集的表达模式。

实验证明,GCN-SC不仅能有效整合来自不同测序技术的scRNA-seq数据,还能成功实现跨物种的细胞对齐,以及跨模态(scRNA-seqscATAC-seq、CITE-seq)的数据整合。在六个具有挑战性的真实数据集上,GCN-SC的整合性能(通过对齐分数、聚类数量等指标评估)显著优于Seurat, LIGER, GLUER, Pamona等一系列SOTA方法。

1. 背景介绍

随着单细胞测序技术的飞速发展,整合来自不同技术平台、不同物种、甚至不同组学层面的数据,成为了揭示复杂生物学现象的关键。然而,这些数据在测序方法、数据质量和表达模式上的巨大差异,为有效整合带来了严峻挑战。为了跨越这些鸿沟,计算方法需要找到可靠的锚点(anchor)来连接不同的数据集。根据锚点选择的不同,现有的整合方法大致可以分为三类:

  1. 水平整合 (Horizontal Integration): 当不同数据集的特征相同时(如都是基因),通过寻找共享的细胞作为锚点进行整合。
  2. 垂直整合 (Vertical Integration): 当不同数据集的细胞相同时(如配对多组学数据),通过寻找共享的特征作为锚点进行整合。
  3. 对角整合 (Diagonal Integration): 这是最普遍也最具挑战性的场景,即不同数据集的细胞和特征都不同(如非配对的scRNA-seqscATAC-seq)。这类方法需要通过算法来推断锚点,如Seurat、LIGER等。

目前主流的对角整合方法,如Seurat、LIGER、Harmony等,虽然取得了巨大成功,但它们或多或少存在一些局限性:

为了克服这些瓶颈,需要一种能够处理非线性关系、同时兼顾数据集内外细胞关系的新方法。

2. GCN-SC 方法

GCN-SC核心在于利用MNN算法构建图,并应用GCN进行信息传递和矩阵调整。整体流程可以概括为:数据预处理 -> 构建混合图 -> GCN调整 -> NMF降维。

2.1 数据预处理与scImpute插补

由于scRNA-seq数据存在严重的稀疏性和dropout现象,GCN-SC首先使用scImpute算法对scRNA-seq计数矩阵进行插补。这一步旨在修复技术性的零值,减少噪声,为下游的细胞关系识别提供一个更可靠的数据基础。

2.2 构建混合图

与许多只关注跨数据集锚点的方法不同,GCN-SC通过互近邻(MNN)算法,构建了一个包含数据集内和数据集间双重关系的混合图。

GCN-SC通常选择细胞数量最多的数据集作为参考(reference),其余作为查询(query)

MNN算法被用于寻找两种类型的细胞配对:

所有找到的MNN对(无论是内部的还是跨数据集的)被用来构建一个混合邻接矩阵$A$。如果细胞$i$和细胞$j$是MNN对,则$A_{ij}=1$,否则为0。

2.3 GCN调整

利用上一步构建的混合图,通过图卷积网络来调整查询数据集的表达矩阵,使其向参考数据集看齐。

首先对邻接矩阵$A$进行对称归一化,以防止在信息传递过程中节点度数大的细胞产生过大的影响。首先加入自环:$A^* = A + I$,计算度矩阵$D$,并进行归一化:

\[\tilde{A} = D^{-1/2}A^*D^{-1/2}\]

这个归一化的邻接矩阵 $\tilde{A}$ 将作为GCN的输入。

GCN的核心是图卷积操作。在第$l$层,一个细胞的特征表示 $X^{l+1}$ 是其自身特征 $X^l$ 和其邻居特征的加权聚合。这个过程可以被形式化为:

\[X^{l+1} = \sigma(\tilde{A} X^l W^l)\]

其中$X^l$ 是第$l$层的细胞特征矩阵。$W^l$ 是第$l$层的可学习权重矩阵。$\sigma$ 是非线性激活函数,如ReLU

通过堆叠多层图卷积,一个细胞的信息可以传播到其多跳邻居,从而GCN能够学习到图的全局结构和复杂的非线性关系。

GCN-SC的训练目标是让经过GCN调整后的查询数据集中的细胞,其表达谱尽可能地接近其在参考数据集中的MNN锚点细胞的表达谱。其目标函数是最小化均方误差损失:

\[\arg\min_{F(X)} \|Y - F(X)\|_F^2\]

其中$X$是原始的查询数据集矩阵。$F(X)$是经过GCN网络$F$调整后的查询矩阵。$Y$是从参考数据集中提取的、与查询数据中MNN锚点相对应的细胞的表达谱。

通过使用Adam优化器进行梯度下降,GCN网络会学习到一系列权重$W$,使得输出的调整后矩阵能够最好地匹配参考数据的模式。

2.4 NMF降维与可视化

GCN调整完成后,查询数据集的表达矩阵已经被校正,与参考数据集处于一个更可比的状态。最后GCN-SC将调整后的查询矩阵和原始的参考矩阵进行拼接,并使用非负矩阵分解(Non-negative Matrix Factorization, NMF)进行降维,得到最终的低维嵌入,用于后续的聚类和可视化(如UMAP)。

3. 实验分析

作者在六个具有不同挑战的真实数据集上,对GCN-SC的性能进行了全面的评估,涵盖了跨技术平台、跨物种和跨模态等多种整合场景。

3.1 实验一:整合不同测序技术的scRNA-seq数据

作者首先测试了GCN-SC在整合来自不同scRNA-seq技术平台(如Cel-seq2 vs. Fluidigm C1, Smart-seq2 vs. 10X)的数据时的批次校正能力。

在整合前,来自不同平台的数据在UMAP上清晰地分离,表现出强烈的批次效应(图C)。经过GCN-SC整合后,这些批次效应被有效去除,来自不同平台的相同类型细胞被完美地混合在一起,同时保留了清晰的细胞类型结构(图F)。这证明了GCN-SC在处理标准批次校正任务上的有效性。

3.2 实验二:跨物种细胞对齐

作者应用GCN-SC来对齐来自人类和小鼠胰腺的scRNA-seq数据。

尽管物种间存在巨大的生物学差异,GCN-SC依然成功地将两个物种的细胞对齐。整合后的UMAP图显示,细胞不再按物种分离,而是按功能相似的细胞类型(如alpha, beta, delta细胞等)聚集在一起(图B, C)。这表明GCN-SC能够捕捉到跨物种保守的细胞身份特征,为比较进化生物学研究提供了强大的工具。

3.3 实验三:跨模态标签迁移 (scRNA-seq to CITE-seq)

作者测试了GCN-SC在不同模态间进行信息传递的能力,具体任务是将一个带注释的CITE-seq数据集的细胞类型标签,迁移到一个无标签的scRNA-seq数据集上。

GCN-SC实现了高达97%的标签迁移准确率。即使对于表达谱高度相似的T细胞和NK细胞,也能实现较好的区分。这证明了GCN-SC构建的细胞关系图能够准确地捕捉跨模态的细胞对应关系。

3.4 实验四:跨模态整合 (scRNA-seq vs. scATAC-seq)

作者比较了GCN-SCSeurat, GLUER, PamonaSOTA方法在整合scRNA-seqscATAC-seq数据上的性能。

在衡量模态混合程度的对齐分数(alignment score)上,GCN-SC在两个测试数据集上均显著高于所有其他方法(图F)。

UMAP可视化显示,GCN-SC整合后的数据能够分出更多、边界更清晰的细胞簇。例如,在PBMC_3k数据上,GCN-SC识别出了14个簇,而SeuratLIGER只识别出7个(图E vs. C)。这表明GCN-SC在去除模态差异的同时,保留了更丰富的生物学异质性。

这些结果有力地证明,GCN-SC基于图卷积网络的非线性整合策略,在处理复杂的跨模态整合任务时,相比现有主流方法具有明显优势。