单细胞数据的双向多模态整合.

0. TL; DR

bindSC是一个基于双向典型相关性分析 (bi-order Canonical Correlation Analysis, bi-CCA) 的单细胞多组学数据整合框架。与传统CCA只在细胞维度上对齐不同,bi-CCA能够同时在细胞和特征两个维度上进行迭代对齐。

bi-CCA引入一个可学习的模态融合矩阵 (modality fusion matrix) Z作为连接两种模态的桥梁。然后通过一个迭代过程,交替优化细胞与细胞的对齐(通过$X$和$Z$的CCA)以及特征与特征的对齐(通过$Y$和$Z$的CCA),直到找到一个能同时最大化两个维度相关性的最优$Z$。

在多个真实的多组学整合任务中(如RNA-ATAC,RNA-蛋白质),bindSC在细胞类型注释准确率、共嵌入质量等方面均显著优于Seurat v3, Liger, Harmony等主流方法。它不仅能发现传统方法忽略的细胞亚群,还能推断出新的、有生物学意义的基因-蛋白和基因-peak调控网络。

1. 背景介绍

现有的单细胞多组学整合方法,如Seurat v3Liger,大多采用先对齐特征,再对齐细胞的单向策略:

  1. 特征对齐(Feature Alignment):首先通过一些经验法则(如基因活性得分),强行将ATAC-seqpeak语言翻译成scRNA-seq的基因语言,创造出一个伪RNA矩阵。
  2. 细胞对齐(Cell Alignment):然后在RNA和伪RNA这两个共享特征空间里,使用CCA等方法来对齐细胞。

这种策略的问题在于,第一步的翻译工作质量非常差。基于基因邻近关系定义的基因活性得分,忽略了大量真实存在的远距离调控(如增强子),并且大大简化了转录因子(TF)与靶基因之间复杂的多对多关系。

另一类方法,如各类流形对齐算法,则走向另一个极端。它们完全不考虑特征间的关系,仅基于每个模态内部的细胞-细胞距离来进行对齐。这又忽略了宝贵的跨模态特征交互信息,容易在细胞类型丰度相似但生物学功能迥异的情况下产生错误。

bindSC (bi-CCA)认为细胞的对齐和特征的对齐是相互依赖关系:准确的细胞匹配能帮助更好地推断特征间的调控关系,而准确的特征关系又能反过来指导更精准地匹配细胞。bindSC通过一个巧妙的迭代框架,让这两个过程相互促进,共同收敛到最优解。

2. bindSC 模型

假设有两个数据矩阵,$X$ (如蛋白质,M个特征 × K个细胞) 和 $Y$ (如RNA,N个特征 × L个细胞)。目标是同时找到细胞间的匹配和特征间的匹配。

bi-CCA引入了模态融合矩阵 $Z \in \mathbb{R}^{M \times L}$。$Z$ 理解为:用 $Y$ 数据集中 $L$ 个细胞的特征,来预测 $X$ 数据集中 $M$ 个特征的表达谱。

$Z$ 矩阵的初始化 $Z^{(0)}$ 可以基于一些粗略的先验知识。例如,在RNA-ATAC整合中,$Z^{(0)}$ 可以是传统的基因活性得分矩阵。在RNA-蛋白质整合中,$Z^{(0)}$ 可以是$Y$数据集中编码对应蛋白的那些基因的表达矩阵。

传统CCA的目标是在两个数据集之间找到一组投影向量,使得投影后的数据相关性最大。bi-CCA则将其扩展到了一个“双向”的场景,优化目标可以概括为:同时最大化 $(X, Z)$ 在细胞维度的相关性 和 $(Y, Z)$ 在特征维度的相关性。

其总目标函数可以写作:

\[\arg\max_{U,S,T,V,Z} \text{tr}\left\{ (XU)'ZS + (Z'T)'Y'V \right\} \\ \text{s.t. } U'U=I, S'S=I, T'T=I, V'V=I\]

这里的 $U, S, T, V$ 都是CCA的投影向量(也称为CCVs, Canonical Correlation Vectors)。

这是一个复杂的多变量优化问题。作者通过一个迭代算法来求解:

迭代步骤(在第 $i$ 次迭代):

  1. 固定 $Z$,求解 $U, S, T, V$: 当 $Z$ 固定时,原问题分解为两个独立的CCA问题:
    • 细胞维度CCA: 在 $X$ 和 $Z^{(i-1)}$ 之间求解CCA,得到细胞的投影向量 $U^{(i)}$ 和 $S^{(i)}$。 \((U^{(i)}, S^{(i)}) := \arg\max_{U,S} \text{tr}\{U'X'Z^{(i-1)}S\}\)
    • 特征维度CCA: 在 $Y$ 和 $Z^{(i-1)}$ 之间求解CCA,得到特征的投影向量 $T^{(i)}$ 和 $V^{(i)}$。 \((T^{(i)}, V^{(i)}) := \arg\max_{T,V} \text{tr}\{T'Z^{(i-1)}Y'V\}\) 这两个CCA问题都可以通过高效的奇异值分解(SVD)来求解。
  2. 固定 $U, S, T, V$,更新 $Z$: 当投影向量都固定后,可以推导出 $Z$ 的一个解析更新解。$Z$ 的更新由三部分构成:
    • 从 $X$ 重构的 $Z$ 部分。
    • 从 $Y$ 重构的 $Z$ 部分。
    • 原始的初始矩阵 $Z^{(0)}$。

更新公式为:

\[Z^{(i)} := (1-\alpha) \left\{ \frac{1-\lambda}{n_l} XU^{(i)}S^{(i)'} + \frac{\lambda}{n_r} T^{(i)}V^{(i)'}Y \right\} + \alpha Z^{(0)}\]

其中,$\lambda$ 和 $\alpha$ 是超参数,分别控制 $Y$ 和 $Z^{(0)}$ 的贡献权重。$n_l, n_r$ 是归一化因子。

反复交替执行步骤1和2,直到 $Z$ 收敛。这个过程保证收敛到一个局部最优解。最终收敛的 $Z$ 就是学到的、最优的模态融合矩阵,它蕴含了两个模态间细胞和特征的双重对应关系。

bi-CCA的输出非常丰富,可以直接用于多种下游分析:

3. 实验分析

作者在多个具有金标准(即已知细胞真实配对关系)的共检测(co-assayed)数据集,以及更具挑战性的非配对数据集上,对bindSC进行了全面的基准测试。

3.1 实验一:整合RNA与ATAC(小鼠视网膜)

作者使用10x Multiome技术生成的、同时包含snRNA-seqsnATAC-seq的小鼠视网膜数据进行测试,但假装它们来自两个独立的实验。

UMAP图显示,bindSC能够最清晰地将10个不同的视网膜双极细胞(BC)亚型分离开,并且两种模态的细胞混合得非常好。

随着bi-CCA的迭代,通过ATAC数据插补出的RNA谱(即$Z$矩阵)与真实的RNA谱之间的Pearson相关性从最初的0.1飙升到0.5。这雄辩地证明了,bi-CCA的迭代过程确实在从头学习一个远比传统基因活性得分更准确的跨模态映射关系。

在将RNA标签迁移到ATAC细胞的任务中,bindSC的准确率显著高于Seurat v3, LigerHarmonySeurat等方法由于依赖质量不佳的基因活性得分,导致了严重的细胞类型混淆。

即便人为地在ATAC数据中移除某些细胞类型或减少其比例,bindSC依然能保持最高的标签迁移准确率,展现了其强大的鲁棒性。

3.2 实验二:整合RNA与蛋白质(CITE-seq)

这是一个更具挑战性的任务,因为RNA和蛋白质的关联性很弱。作者使用了包含25个蛋白的人骨髓CITE-seq数据。

在这个任务中,Seurat、LigerHarmony等依赖共享特征的方法几乎完全失败,无法生成有意义的共嵌入。而bindSC通过利用所有RNA基因的信息(将整个RNA矩阵作为$Y$),成功地将两种模态对齐。bindSC的标签迁移准确率再次远超其他方法。

bindSC插补出的蛋白质谱与真实蛋白质谱的相关性,显著高于原始的蛋白编码基因的表达谱。这说明bindSC成功捕捉到了复杂的转录后调控信息。例如,对于CD19蛋白,其丰度与CD19基因的表达相关性不高,但与bindSC插补出的结果高度相关。

基于高质量的插补结果,作者成功构建了一个基因-蛋白相关性网络,并从中发现了已知的、围绕CD14CD79b的核心调控模块。

3.3 实验三:发现新的细胞状态(CAR-NK细胞)

作者将bindSC应用于一个更前沿的生物学问题:整合CAR-NK免疫细胞的scRNA-seqCyTOF(蛋白质)数据,以发现与疗效相关的细胞亚群。

单独分析RNA或蛋白质数据时,无法识别出功能上特殊的细胞群。但通过bindSC整合后,一个独特的细胞簇(iCluster 2)浮现出来。

作者发现,这个新簇在转录组层面高表达TNF, CCL4, JUN, FOS等一系列已知的细胞激活marker,同时在蛋白质层面高表达2B4, DNAM-1等激活受体。这种RNA和蛋白质双重证据,强有力地证明了iCluster 2是一群处于高度激活状态的CAR-NK细胞,这对于理解和优化CAR-NK疗法至关重要。这个发现是单一模态分析或传统整合方法无法做到的。