基于图链接嵌入的多组学单细胞数据整合与调控推理.
0. TL; DR
GLUE (Graph-Linked Unified Embedding)是一个通过显式地建模跨模态调控关系来整合不同组学数据的计算框架。GLUE利用生物学先验知识构建一个指导图(guidance graph),在每个模态独立的变分自编码器(VAE)之间建立联系,通过对抗学习实现精准对齐。
在多个基准数据集上,GLUE在整合准确性、鲁棒性(对先验知识噪声不敏感)和可扩展性方面,均显著优于当时所有SOTA方法。它成功地构建了包含数百万细胞的人类细胞图谱,并能有效整合三模态数据。
1. 背景介绍
在单细胞多组学领域,整合来自不同实验、具有异构特征空间的数据,例如单细胞转录组测序(scRNA-seq)和单细胞染色质可及性测序(scATAC-seq),是一个核心的计算挑战。其目标是构建一个统一的表示,以全面地刻画共享的底层生物系统。当前主流的整合策略主要遵循两种不同的范式:
- 显式特征转换(Explicit Feature Conversion):以Seurat v3和LIGER为代表的方法,通常依赖于先验知识(例如,基于基因组邻近关系定义的基因活性得分)将一种模态的特征空间投影到另一种模态的特征空间中。然而,这种方法的根本局限性在于其性能严重依赖于先验知识的准确性和完整性。不精确或简化的转换规则(如忽略远距离调控)会在整合的初始阶段就引入不可逆的信息损失和偏差。
- 流形对齐(Manifold Alignment):以UnionCom和SCOT为代表的方法,则完全绕开了特征转换步骤。它们假设不同模态的数据在各自的高维空间中形成具有相似拓扑结构的低维流形,并致力于通过数学变换直接对齐这些流形。尽管这种方法在理论上更具通用性,但它忽略了特征层面的对应关系,当数据集的流形结构复杂或存在显著差异时,容易导致细胞群的错误匹配。
一个更合理且鲁棒的整合框架应当将先验知识作为一种归纳偏置或引导机制,而非刚性约束,同时允许模型从数据本身学习和优化跨模态的映射关系。
2. GLUE 模型
GLUE是一个基于深度生成模型的框架,通过构建一个显式建模跨模态调控网络的指导图,在不同的、模态特异性的自编码器之间建立起联系,再结合对抗性学习机制对细胞嵌入进行精细对齐,从而实现了精准且稳健的数据整合。

GLUE为每一种待整合的模态(如RNA、ATAC、甲基化等)都配备一个独立的变分自编码器。
对于第 $k$ 种模态的数据 $x_k$,其专属的数据编码器 $q(u|x_k;\phi_k)$(一个多层感知机MLP)会将其映射到一个低维的、共享的细胞潜在空间,输出每个细胞嵌入$u$的均值和方差。
数据解码器 $p(x_k|u, V; \theta_k)$的目标是从细胞嵌入$u$重构出原始数据 $x_k$。但它不是直接重构,而是通过计算$u$与特征嵌入矩阵$V$的内积来实现。
\[\mu_i = \text{Softmax}_i(\alpha \odot V_k^T u + \beta) \cdot \sum_{j \in V_k} x_{kj}\]这里的 $V_k$ 是第 $k$ 种模态所有特征的嵌入向量组成的矩阵,它来自图编码器。这个设计至关重要,因为它意味着解码过程必须同时依赖于细胞的状态(u)和特征的身份(V)。通过这种方式,来自不同模态、本来毫无关联的解码器,因为共享了同一个$V$矩阵的语义,而被间接地链接了起来。
图变分自编码器 (Graph VAE)负责学习连接所有模态的特征嵌入$V$。首先根据生物学先验知识,构建一个指导图 (Guidance Graph) $G$。图中的节点是所有模态的所有特征(如所有基因、所有ATAC peaks、所有甲基化位点)。边代表特征间的已知调控关系。例如,一个ATAC peak和它附近的基因之间可以有一条带正号的边,而一个基因启动子区域的甲基化位点和该基因之间可以有一条带负号的边。
使用一个图VAE来学习这个指导图$G$。图编码器 $q(V|G; \phi_G)$是一个图卷积网络(GCN)。通过在指导图$G$上进行消息传递,GCN为每个特征节点$i$学习到一个嵌入向量 $v_i$,这个向量编码了该特征在整个跨模态调控网络中的位置和角色。图解码器 $p(G|V; \theta_G)$通过计算任意两个特征嵌入 $v_i$ 和 $v_j$ 的内积,来预测它们之间存在边的概率,从而试图重构出原始的指导图。
\[\log p(G|V; \theta_G) \propto \log \sigma(s_{ij}v_i^T v_j)\]通过优化图VAE的损失函数(图重构损失+KL散度),最终得到了所有特征的统一嵌入矩阵$V$。这个$V$赋予了每个特征一个在共享语义空间中的坐标。
虽然通过图链接的解码器,不同模态的潜在空间在语义上已经对齐,但它们的实际分布可能仍有差异。为了实现完美的混合,GLUE引入了对抗学习机制。训练一个判别器D,它的任务是分辨一个给定的细胞嵌入$u$到底是来自RNA模态,还是ATAC模态,还是其他模态,目标是最小化它的分类交叉熵损失 $L_D$,即尽可能准确地进行分类。
\[L_D(\phi, \psi) = - \frac{1}{K} \sum_{k=1}^K \mathbb{E}_{u \sim q(u|x_k)} \log D_k(u; \psi)\]而所有的数据编码器 $q(u|x_k)$ 的目标则恰恰相反,它们要最大化 $L_D$,即生成让判别器真假难辨的细胞嵌入。这个min-max的对抗过程,最终会驱使所有模态的细胞嵌入分布趋于一致,在潜在空间中完美地混合在一起。
为了处理细胞类型比例在不同数据集中不平衡的问题,GLUE还设计了一套加权的对抗对齐策略和两阶段训练流程,使得模型在复杂场景下更加鲁棒和精准。
GLUE的最终训练目标是联合优化上述所有组件:
\[\max_{\theta, \phi} \min_{\psi} \quad \lambda_D \cdot L_D + \lambda_G \cdot K \cdot L_G + \sum_{k=1}^K L_{X_k}\]其中 $L_G$ 和 $L_{X_k}$ 分别是图VAE和数据VAE的ELBO损失。通过这个统一的优化目标,GLUE实现了数据整合与调控关系学习。
3. 实验分析
作者在多个金标准数据集(即已知细胞真实配对关系)和更复杂的真实场景下,对GLUE的性能进行了系统性的基准测试。
3.1 实验一:系统性基准测试
作者比较了GLUE与Seurat, LIGER, Harmony, bindSC, UnionCom等一系列SOTA方法的整合性能。
在所有五个测试数据集上,GLUE的综合整合得分(综合了生物学保留和模态混合两大类指标)始终排名第一(图b)。
利用金标准数据的真实配对信息,计算了FOSCTTM(真实配对的距离排名分数,越低越好)来衡量单细胞级别的对齐精度。在所有数据集上,GLUE的FOSCTTM值都是最低的,比第二名的方法有1.5到3.6倍的提升(图c)。这表明GLUE的对齐精度达到了前所未有的水平。
通过人为地在指导图中引入噪声(随机替换边),来测试模型对不完美先验知识的鲁棒性。结果显示,即便在高达90%的噪声污染下,GLUE的性能下降幅度也是所有方法中最小的(图d)。这证明GLUE并非死板地依赖指导图,而是能有效地从数据中学习并纠正先验知识的错误。

3.2 实验二:三模态整合与表观调控定量分析
得益于其模块化设计,GLUE可以轻松扩展到三种甚至更多模态的整合。作者使用GLUE整合了小鼠大脑皮层的scRNA-seq, scATAC-seq和snmC-seq(甲基化)三组数据。
GLUE成功地将三种模态的数据对齐到了一个统一的嵌入空间,并统一和精炼了原始数据中不一致的细胞类型注释(图a-e)。
基于整合后的数据,能够定量地分析不同表观遗传层(染色质开放性、CG甲基化、CH甲基化)对基因表达的预测能力。作者发现,在神经元中,CH甲基化对基因表达的预测能力最强,并且,整合所有三种表观信息能得到最佳的预测效果(图f)。这是单一模态分析无法得出的结论。

3.3 实验三:整合与调控推断一体化
GLUE的特征嵌入不仅用于整合,还能直接用于推断新的调控关系。
作者使用GLUE推断的调控分数(即peak-gene特征嵌入的余弦相似度),来预测顺式调控关系。结果显示,GLUE预测的调控关系与pcHi-C(染色质构象)和eQTL(表达数量性状位点)等多种独立的实验证据高度吻合,其预测准确性(AUROC)显著高于传统的共表达或共开放方法(如Cicero)(图a-c)。
GLUE的整合-推断一体化框架,能够帮助解析已知的TF-靶基因调控通路。例如,对于已知的SPI1->NCF2调控对,GLUE成功地在NCF2基因附近定位到了三个被SPI1结合的、具有实际调控功能的远距离调控元件(图d)。

3.4 实验四:构建百万细胞级别的人类细胞图谱
作者挑战了整合两个分别来自scRNA-seq和scATAC-seq的、总细胞数超过500万的人类细胞图谱的终极任务。
采用高效的多阶段训练策略,GLUE成功地将这两个巨大的图谱在单细胞层面进行了整合,构建了一个统一的多组学人类细胞图谱。这是当时其他方法(如iNMF, Seurat)无法完成的任务。
在整合后的图谱中,作者发现了一些原始注释中可能存在的错误。例如,一些在ATAC中标为“星形胶质细胞”的细胞,在整合后与RNA中的“放射状胶质细胞/神经祖细胞”对齐得更好,并且其marker基因表达也支持后者。这展示了大规模多组学整合在数据管理和知识发现中的巨大价值。
