单细胞多模态整合的综合视角嵌入学习.

0. TL; DR

CoVEL (Comprehensive View Embedding Learning)是一个从三个互补视角联合学习的单细胞多组学数据整合框架:

  1. 图链接嵌入 (Graph-linked Embedding): 捕捉模态间的调控关系,构建一个跨模态的特征调控图,利用图VAE学习每个特征的嵌入,学习不同分子层面的内在联系。
  2. 细粒度细胞嵌入 (Fine-grained Cell Embedding): 捕捉细胞内部的特征精细结构,通过引入Transformer层,学习每个细胞内数万个基因/peaks之间的复杂相互作用。
  3. 对比细胞嵌入 (Contrastive Cell Embedding): 捕捉细胞间的异同关系,通过对比学习,在统一的潜在空间中拉近同类细胞、推开异类细胞。

在多个公开的、具有挑战性的单细胞多组学数据集上(包括三模态数据和大规模图谱数据),CoVEL的整合性能在各项指标上均稳定地优于或持平于GLUE, Seurat, LIGER等一系列SOTA方法。

1. 背景介绍

现有的单细胞多组学整合方法可以归纳为三个核心视角:

  1. 视角一:模态间的调控关系 (如GLUE): 这类方法关注的是特征与特征之间的关系。它们通过构建一个基于先验知识的图(如基因-peak调控网络),来指导不同模态的对齐。
  2. 视角二:细胞内的细粒度结构 (如scBERT): 这类方法关注的是一个细胞内部,特征与特征之间的关系。它们借鉴NLP中的Transformer模型,将一个细胞的所有基因视为一个句子,学习基因之间的复杂语法和语义。
  3. 视角三:细胞间的对比关系 (如Concerto): 这类方法关注的是细胞与细胞之间的关系。它们通过对比学习,在潜在空间中将相似的细胞拉近,将不相似的细胞推远。

每个视角都提供了宝贵的信息,但也都存在局限性。例如,图模型依赖不完整的先验知识,Transformer模型计算开销大,对比学习则可能忽略特征层面的细节。CoVEL将这三个视角完美地融合在一起,形成一个对细胞的全景式表征学习方法。

2. CoVEL 方法

CoVEL是一个无监督的深度学习框架,其核心是分别从三个视角学习嵌入,并通过一个联合损失函数将它们统一起来。

2.1 视角一:图链接嵌入学习 (Graph-Linked Embedding)

视角一:图链接嵌入学习模块的目标是学习一个特征级别(feature-level)的嵌入,以捕捉跨模态的调控关系。

首先,基于生物学先验知识(如基因组坐标),构建一个连接不同模态特征的图$G$。图中的节点是特征(基因、peak等),边代表它们之间可能存在的调控关系(如ATAC peak对基因表达的正向调控)。

使用一个图变分自编码器 (Graph VAE)来学习这个图。使用图注意力网络(GAT)作为编码器,通过消息传递,为每个特征节点学习一个融合了其邻居(可能来自不同模态)信息的嵌入向量。

\[q(F|G) = \prod_{i=1}^{|V|} \mathcal{N}(f_i | \text{GAT}_{\mu_i}(G), \text{GAT}_{\sigma_i^2}(G))\]

通过计算任意两个特征嵌入的内积,来重构出一个更精细、更密集的调控关系图 $\hat{G}$。通过优化图重构损失,得到了每个特征的嵌入矩阵 $F_k \in \mathbb{R}^{|V_k| \times m}$。这个图链接嵌入捕捉了特征在全局调控网络中的定位。

2.2 视角二:细粒度细胞嵌入学习 (Fine-Grained Cell Embedding)

细粒度细胞嵌入学习模块的目标是学习一个细胞内(intra-cell)的嵌入,以捕捉细胞内部特征间的复杂依赖关系。

对于一个细胞的表达谱,将其与视角一学到的图链接特征嵌入进行拼接。这相当于为每个基因的表达值,附加上了它在全局调控网络中的上下文信息。

\[x_{in}^{(n)} = \text{concat}(x_{position}^{(n)}, x_{counts}^{(n)})\]

其中 $x_{position}^{(n)}$ 就是来自视角一的特征嵌入 $F$。

使用一个基于Performer(一种高效的Transformer变体)的编码器层,来处理上述的拼接输入。Transformer的自注意力机制能够捕捉到细胞内任意两个基因之间的长距离依赖关系。

经过多层Transformer后,得到了一个富含细胞内部精细结构信息的输出 $z_{teacher}$。$z_{teacher}$ 中包含了对每个细胞内部特征关系的深刻理解,将其视为细粒度细胞嵌入。

2.3 视角三:对比细胞嵌入学习 (Contrastive Cell Embedding)

对比细胞嵌入学习模块的目标是学习一个细胞间(inter-cell)的嵌入,以最大化不同细胞类型在潜在空间中的区分度。

CoVEL采用了一个非对称网络(Teacher-Student)来生成正样本对。一个细胞的输入同时送入一个结构更复杂的Teacher分支(包含Transformer层)和一个结构简单的Student分支(只有全连接层)。两个分支的输出 $z_{teacher}$ 和 $z_{student}$ 经过一个投影头,得到一对嵌入向量 $(z_{teacher}’, z_{student}’)$,它们构成了正样本对。Batch内的所有其他细胞的嵌入都构成负样本。

对比学习采用标准的InfoNCE损失,在归一化的单位超球面上进行对比学习。目标是拉近正样本对的余弦相似度,同时推开所有负样本对。

\[L_{view3} = - \frac{1}{2N_{batch}} \sum_{j=1}^{N_{batch}} \log \frac{e^{s_{j, j+}}}{\sum_{r \neq j} [e^{s_{j+, r}} + e^{s_{j, r}}]}\]

经过对比学习优化后的Teacher分支的输出 $U_k \in \mathbb{R}^{N_k \times m}$,被作为最终的对比细胞嵌入。这个嵌入最大化了细胞间的可分性,是用于数据整合和下游聚类的最终细胞表征。

2.4 三重视角融合

CoVEL通过一个统一的损失函数,将三个视角的学习过程串联并融合在一起:

\[L = L_{view1} + L_{view2} + L_{view3}\]

通过联合优化这三个损失,CoVEL得以学习到一个信息丰富的细胞表征。

3. 实验分析

作者在多个具有挑战性的数据集上(如Ma-2020, Muto-2021等)评估了CoVEL的整合性能,并与iNMF, LIGER, bindSC, Harmony, Seurat v3, GLUE等一系列SOTA方法进行了比较,主要考察批次去除(Batch removal)和生物学保留(Biology conservation)两个方面。

在所有测试的数据集上,CoVEL的综合性能(批次去除和生物学保留的平衡)均达到了与GLUE等顶尖方法相当或更优的水平。

UMAP可视化清晰地显示,CoVEL能够完美地混合不同模态的数据,同时保持清晰的细胞簇结构。CoVEL的性能在不同数据划分的随机种子下表现稳定。在不同规模的子集上的测试表明,随着数据量的增加,CoVEL的性能优势愈发明显,展现了良好的可扩展性。

为了探究三个视角各自的贡献,作者在Ma-2020数据集上进行了消融实验。包含全部三个视角(图链接、细粒度、对比学习)的完整CoVEL模型,在批次去除和生物学保留两个指标上都取得了最好的性能。去掉对比学习(c.l)或细粒度学习(f.l),会导致批次去除能力大幅下降。这说明这两个视角对于学习一个与模态无关的、可区分的细胞表征至关重要。去掉或损坏图链接信息(e.d),则会导致生物学保留能力下降。这说明模态间的调控关系图谱对于保持正确的生物学结构是必不可少的。

作者进一步挑战了更复杂的任务,包括整合三种模态(RNA, ATAC, Methylation)和进行下游的轨迹推断。

CoVEL成功地将来自小鼠大脑皮层的三种完全不同的模态数据整合到了一个统一的嵌入空间中,并且保留了清晰的细胞类型结构,展现了其处理更多模态的潜力。

通过将细胞类型标签映射回CoVEL学习到的联合嵌入空间,成功地验证了其整合结果与已知的生物学知识(如不同神经元亚型间的关系)是一致的,证明了其结果的可解释性。

基于CoVEL整合后的嵌入,使用PAGA算法成功地推断出了小鼠胰腺内分泌细胞从祖细胞分化到Alpha, Beta等多种成熟细胞类型的复杂分化轨迹,并且该结果得到了RNA velocity分析的验证。这表明CoVEL高质量的整合结果可以作为可靠的输入,赋能复杂的下游分析。