使用图卷积网络进行单细胞多组学数据集成的通用框架.

paper：A universal framework for single-cell multi-omics data integration with graph convolutional networks

0. TL; DR

GCN-SC是一个基于图卷积网络（Graph Convolutional Network, GCN）的通用单细胞多组学数据整合框架。GCN-SC利用互近邻（Mutual Nearest Neighbors, MNN）算法构建一个混合的细胞-细胞关系图，然后通过GCN强大的信息传播能力，对查询数据集进行调整，以匹配参考数据集的表达模式。

实验证明，GCN-SC不仅能有效整合来自不同测序技术的scRNA-seq数据，还能成功实现跨物种的细胞对齐，以及跨模态（scRNA-seq与scATAC-seq、CITE-seq）的数据整合。在六个具有挑战性的真实数据集上，GCN-SC的整合性能（通过对齐分数、聚类数量等指标评估）显著优于Seurat, LIGER, GLUER, Pamona等一系列SOTA方法。

1. 背景介绍

随着单细胞测序技术的飞速发展，整合来自不同技术平台、不同物种、甚至不同组学层面的数据，成为了揭示复杂生物学现象的关键。然而，这些数据在测序方法、数据质量和表达模式上的巨大差异，为有效整合带来了严峻挑战。为了跨越这些鸿沟，计算方法需要找到可靠的锚点（anchor）来连接不同的数据集。根据锚点选择的不同，现有的整合方法大致可以分为三类：

水平整合 (Horizontal Integration): 当不同数据集的特征相同时（如都是基因），通过寻找共享的细胞作为锚点进行整合。
垂直整合 (Vertical Integration): 当不同数据集的细胞相同时（如配对多组学数据），通过寻找共享的特征作为锚点进行整合。
对角整合 (Diagonal Integration): 这是最普遍也最具挑战性的场景，即不同数据集的细胞和特征都不同（如非配对的scRNA-seq和scATAC-seq）。这类方法需要通过算法来推断锚点，如Seurat、LIGER等。

目前主流的对角整合方法，如Seurat、LIGER、Harmony等，虽然取得了巨大成功，但它们或多或少存在一些局限性：

线性假设： 许多方法（如基于CCA的Seurat）依赖于线性模型来寻找数据集间的对应关系，但这难以捕捉真实的、复杂的非线性批次效应。
忽略内部结构： 一些方法在对齐时，主要关注跨数据集的细胞关系，而忽略了数据集内部细胞间的拓扑结构，这可能导致流形的扭曲。
信息损失： 基于矩阵分解的方法（如LIGER）或特征转换的方法，在降维或转换过程中可能会丢失部分原始信息。

为了克服这些瓶颈，需要一种能够处理非线性关系、同时兼顾数据集内外细胞关系的新方法。

2. GCN-SC 方法

GCN-SC核心在于利用MNN算法构建图，并应用GCN进行信息传递和矩阵调整。整体流程可以概括为：数据预处理 -> 构建混合图 -> GCN调整 -> NMF降维。

2.1 数据预处理与scImpute插补

由于scRNA-seq数据存在严重的稀疏性和dropout现象，GCN-SC首先使用scImpute算法对scRNA-seq计数矩阵进行插补。这一步旨在修复技术性的零值，减少噪声，为下游的细胞关系识别提供一个更可靠的数据基础。

2.2 构建混合图

与许多只关注跨数据集锚点的方法不同，GCN-SC通过互近邻（MNN）算法，构建了一个包含数据集内和数据集间双重关系的混合图。

GCN-SC通常选择细胞数量最多的数据集作为参考（reference），其余作为查询（query）。

MNN算法被用于寻找两种类型的细胞配对：

数据集内MNN对： 在查询数据集内部，为每个细胞寻找其k个最近邻，构建一个描述局部流形结构的图。
数据集间MNN对： 在参考数据集和查询数据集之间，寻找互为最近邻的细胞对，这些细胞对构成了连接两个数据集的锚点。

所有找到的MNN对（无论是内部的还是跨数据集的）被用来构建一个混合邻接矩阵$A$。如果细胞$i$和细胞$j$是MNN对，则$A_{ij}=1$，否则为0。

2.3 GCN调整

利用上一步构建的混合图，通过图卷积网络来调整查询数据集的表达矩阵，使其向参考数据集看齐。

首先对邻接矩阵$A$进行对称归一化，以防止在信息传递过程中节点度数大的细胞产生过大的影响。首先加入自环：$A^* = A + I$，计算度矩阵$D$，并进行归一化：

\[\tilde{A} = D^{-1/2}A^*D^{-1/2}\]

这个归一化的邻接矩阵 $\tilde{A}$ 将作为GCN的输入。

GCN的核心是图卷积操作。在第$l$层，一个细胞的特征表示 $X^{l+1}$ 是其自身特征 $X^l$ 和其邻居特征的加权聚合。这个过程可以被形式化为：

\[X^{l+1} = \sigma(\tilde{A} X^l W^l)\]

其中$X^l$ 是第$l$层的细胞特征矩阵。$W^l$ 是第$l$层的可学习权重矩阵。$\sigma$ 是非线性激活函数，如ReLU。

通过堆叠多层图卷积，一个细胞的信息可以传播到其多跳邻居，从而GCN能够学习到图的全局结构和复杂的非线性关系。

GCN-SC的训练目标是让经过GCN调整后的查询数据集中的细胞，其表达谱尽可能地接近其在参考数据集中的MNN锚点细胞的表达谱。其目标函数是最小化均方误差损失：

\[\arg\min_{F(X)} \|Y - F(X)\|_F^2\]

其中$X$是原始的查询数据集矩阵。$F(X)$是经过GCN网络$F$调整后的查询矩阵。$Y$是从参考数据集中提取的、与查询数据中MNN锚点相对应的细胞的表达谱。

通过使用Adam优化器进行梯度下降，GCN网络会学习到一系列权重$W$，使得输出的调整后矩阵能够最好地匹配参考数据的模式。

2.4 NMF降维与可视化

在GCN调整完成后，查询数据集的表达矩阵已经被校正，与参考数据集处于一个更可比的状态。最后GCN-SC将调整后的查询矩阵和原始的参考矩阵进行拼接，并使用非负矩阵分解（Non-negative Matrix Factorization, NMF）进行降维，得到最终的低维嵌入，用于后续的聚类和可视化（如UMAP）。

3. 实验分析

作者在六个具有不同挑战的真实数据集上，对GCN-SC的性能进行了全面的评估，涵盖了跨技术平台、跨物种和跨模态等多种整合场景。

3.1 实验一：整合不同测序技术的scRNA-seq数据

作者首先测试了GCN-SC在整合来自不同scRNA-seq技术平台（如Cel-seq2 vs. Fluidigm C1, Smart-seq2 vs. 10X）的数据时的批次校正能力。

在整合前，来自不同平台的数据在UMAP上清晰地分离，表现出强烈的批次效应（图C）。经过GCN-SC整合后，这些批次效应被有效去除，来自不同平台的相同类型细胞被完美地混合在一起，同时保留了清晰的细胞类型结构（图F）。这证明了GCN-SC在处理标准批次校正任务上的有效性。

3.2 实验二：跨物种细胞对齐

作者应用GCN-SC来对齐来自人类和小鼠胰腺的scRNA-seq数据。

尽管物种间存在巨大的生物学差异，GCN-SC依然成功地将两个物种的细胞对齐。整合后的UMAP图显示，细胞不再按物种分离，而是按功能相似的细胞类型（如alpha, beta, delta细胞等）聚集在一起（图B, C）。这表明GCN-SC能够捕捉到跨物种保守的细胞身份特征，为比较进化生物学研究提供了强大的工具。

3.3 实验三：跨模态标签迁移 (scRNA-seq to CITE-seq)

作者测试了GCN-SC在不同模态间进行信息传递的能力，具体任务是将一个带注释的CITE-seq数据集的细胞类型标签，迁移到一个无标签的scRNA-seq数据集上。

GCN-SC实现了高达97%的标签迁移准确率。即使对于表达谱高度相似的T细胞和NK细胞，也能实现较好的区分。这证明了GCN-SC构建的细胞关系图能够准确地捕捉跨模态的细胞对应关系。

3.4 实验四：跨模态整合 (scRNA-seq vs. scATAC-seq)

作者比较了GCN-SC与Seurat, GLUER, Pamona等SOTA方法在整合scRNA-seq和scATAC-seq数据上的性能。

在衡量模态混合程度的对齐分数（alignment score）上，GCN-SC在两个测试数据集上均显著高于所有其他方法（图F）。

UMAP可视化显示，GCN-SC整合后的数据能够分出更多、边界更清晰的细胞簇。例如，在PBMC_3k数据上，GCN-SC识别出了14个簇，而Seurat和LIGER只识别出7个（图E vs. C）。这表明GCN-SC在去除模态差异的同时，保留了更丰富的生物学异质性。

这些结果有力地证明，GCN-SC基于图卷积网络的非线性整合策略，在处理复杂的跨模态整合任务时，相比现有主流方法具有明显优势。