单细胞多组学数据联合分析的深度跨组学循环注意力模型.

0. TL; DR

DCCA (Deep Cross-omics Cycle Attention) 是一个用于联合分析单细胞多组学数据的计算工具。DCCA 的核心是结合了变分自编码器(VAE)注意力转移(Attention-Transfer)机制,能够利用一种组学数据来微调为另一种组学数据训练的网络。

DCCA 不仅是一个整合工具,它还能够剖析细胞异质性,学习到的潜在表征能够更清晰地分离细胞类型;数据去噪与聚合,通过其生成式解码器,有效修复两种模态数据中的稀疏信号;构建跨组学关联,为推断新的转录调控关系提供坚实基础。

1. 背景介绍

单细胞基因组学的最新技术突破,如scNMT-seqSNARE-seqSHARE-seq,使我们能够在同一个细胞内同时捕获多种分子信息,例如mRNA(信使RNA)、染色质可及性DNA甲基化。这些多组学数据为我们提供了比单一组学更丰富的细胞状态信息,使我们能更全面地刻画细胞异质性和转录调控程序。

基因表达是一个受到精密调控的过程,其中转录因子(TF)与顺式调控元件的结合至关重要。scRNA-seq描绘了基因的表达水平,而scATAC-seq等表观基因组学技术则揭示了这些顺式调控元件的开放状态。因此,整合这两种组学数据,对于揭示与细胞异质性相关的调控层面具有非凡的意义。

然而数据内在属性存在巨大差异

现有方法的局限性

为了克服这些局限,作者提出了一种新的思路:我们是否可以为每个模态学习一个独立但相互协调的潜在空间?我们能否利用信息更丰富的模态(如scRNA-seq)作为教师,来指导和微调信息更稀疏的模态(如scATAC-seq)的学习过程?

2. DCCA 模型

DCCA模型的核心思想是通过变分自编码器(VAE)为每个组学数据独立建模,然后通过循环注意力转移机制来协调它们,构建跨模态的关联。

2.1 DCCA 模型的基本结构

DCCA首先为每个模态(以scRNA-seqscEpigenomics为例)构建一个独立的VAE

对于scRNA-seq数据 $x$,编码器 $E_x$ 将其映射到一个$K$维的潜在空间,得到潜在表征 $z_x$。对于scEpigenomics数据 $y$,编码器 $E_y$ 将其映射到$K$维的潜在空间,得到潜在表征 $z_y$。这两个潜在空间是分离的,各自捕捉其对应模态的特征。

从 $z_x$ 出发,通过解码器 $D_{ux}$ 和 $D_{hx}$,重构出负二项(NB)分布的参数(均值 $\mu_x$ 和离散度 $\theta_x$),用于生成scRNA-seq的计数数据。从 $z_y$ 出发,通过解码器 $D_{uy}$,重构出伯努利(Ber)分布的参数(均值 $\mu_y$),用于生成scEpigenomics的二值化数据。

每个独立的VAE都通过最大化其证据下界(ELBO)来进行训练。ELBO包含两部分:重构损失确保潜在表征能够足够好地重构原始数据;KL散度损失促使潜在分布 $q(z|x)$ 接近于先验分布 $p(z)$(通常是标准高斯分布)。

\[\log p(x|z_x) \ge \mathbb{E}_{z_x \sim q(z_x|x,E_x)}(\log p(x|z_x, D_{ux}, D_{hx})) - k_1 D_{KL}(q(z_x|x,E_x) \| p(z))\]

2.2 注意力转移

在独立训练每个VAE的基础上,DCCA引入了其核心机制——注意力转移,以协调两个潜在空间。DCCA将信息更丰富、信噪比更高的scRNA-seq模态视为教师,将更稀疏、噪声更大的scEpigenomics模态视为学生。在训练学生网络(scEpigenomics VAE)时,除了其自身的ELBO损失外,额外引入了一个注意力转移损失项。这个损失项强制要求学生的潜在表征 $z_y$ 与其对应的教师潜在表征 $z_x$ 之间的L2距离最小化。

\[L_{ty} = \log p(y|z_y) - \beta_2 \sum_{i=0}^{K-1} \| z_x^i - z_y^i \|^2\]

通过这个额外的损失项,来自教师网络(scRNA-seq)的、关于细胞状态的知识,就被转移或注入到了学生网络(scEpigenomics)的学习过程中,从而指导和微调了 $z_y$ 的学习。

更进一步,这个过程可以循环进行。在学生网络得到提升后,它也可以反过来充当教师,去指导原始的教师网络。因此,scRNA-seq网络的损失函数也增加了一个类似的注意力转移项:

\[L_{tx} = \log p(x|z_x) - \beta_1 \sum_{i=0}^{K-1} \| z_y^i - z_x^i \|^2\]

通过这种循环的、相互监督的注意力转移机制,DCCA最终为每个模态都学习到了一个既保留自身特性、又吸收了对方知识的、协调但分离的潜在表征。

2.3 基于DCCA的调控网络推断

DCCA学习到的高质量、去噪后的多组学数据,为推断转录调控关系提供了坚实基础。其推断流程如下:

  1. 识别TF-Peak关联: 使用chromVAR工具,在原始scATAC-seq数据中识别转录因子(TF)基序(motif)的富集情况,从而得到TF与peak的潜在结合关系。
  2. 识别Peak-TG关联: 计算每个基因(TG,靶基因)与其附近peaks之间的皮尔逊相关性,通过与随机背景比较来确定显著相关的peak-TG对。
  3. 推断TF-TG关系: 如果一个TF能结合到一个与TG显著相关的peak上,则认为该TFTG之间存在潜在的调控关系。
  4. GLR模型筛选: 最后,使用广义线性回归(GLR)模型(带岭回归惩罚),以TG的表达量为因变量,以其所有潜在TF的表达量为自变量进行回归。通过五折交叉验证,筛选出对TG表达具有显著预测能力的TF,作为最终的调控关系。

3. 实验分析

作者在一系列模拟和真实的、来自不同技术平台的多组学数据集上,对DCCA的性能进行了系统性的评估,并与多种SOTA方法进行了比较。

3.1 实验一:细胞系混合数据

作者首先在一个由四种人类细胞系混合而成的SNARE-seq数据集上评估了DCCA

UMAP可视化显示,DCCA学习到的联合嵌入,其细胞类型分离效果显著优于MOFAþ, scAI等线性方法,也优于scVI, cisTopic等单模态方法(图A)。

在定量的聚类准确性评估中(ARINMI指标),DCCA的性能与scMVAE-PoEMOFA+相当,均处于第一梯队,显著优于其他方法(图B)。

DCCA去噪后的scRNA-seqscATAC-seq数据之间的一致性(通过Kappa系数基因-peak相关性评估)显著高于其他所有方法,证明了其注意力转移机制在构建跨模态关联上的有效性(图C)。

基于DCCA去噪后的scATAC-seq数据计算的TF motif活性,其细胞类型特异性模式最为清晰,成功识别出了JUNBJ细胞、GATA2K562细胞中的特异性高活性等已知模式(图D, E)。

3.2 实验二:真实复杂组织数据

作者进一步在更复杂的PBMC 3K(10x Multiome)和小鼠皮肤(SHARE-seq)数据集上验证了DCCA的性能。

PBMC数据中,DCCA是少数能够清晰区分MAIT细胞NK细胞CD8+ TEM等高度相似T细胞亚群的方法之一。同时,它也能很好地区分CD14+CD16+单核细胞(图A)。

无论是在PBMC数据还是在更大规模(约3.5万细胞)的小鼠皮肤数据上,DCCA在聚类准确率(ARINMI)上均优于所有被比较的MOMs(多组学方法)和SOMs(单组学方法)(图B)。

基于DCCA去噪后的PBMC数据,作者推断了TF-TG调控网络,并发现其预测结果在已知的调控数据库(hTFtarget)中显著富集,其性能优于scMVAEMOFA+等方法。此外,推断出的调控网络还展现出高度的细胞类型特异性(图E, F)。

3.3 实验三:生成缺失的细胞或组学数据

作者在一个包含三个小鼠胚胎发育阶段(E5.5, E6.5, E7.5)的scNMT-seq数据集上进行了测试,其中E5.5阶段只有scRNA-seq数据。

作者首先在拥有配对数据的E6.5E7.5阶段上训练DCCA模型。然后,利用训练好的模型,将只有scRNA-seq数据的E5.5阶段细胞投影到联合嵌入空间中。结果显示,这些新来的细胞被正确地放置在了发育轨迹的起始位置,并且其内部的细胞类型结构也得到了清晰的展示(图A)。

进一步,作者利用训练好的模型,为E5.5阶段的细胞生成了它们缺失的scMethylation(甲基化)数据。通过五折交叉验证,作者证明了这种跨模态生成的数据与真实数据具有高度的正相关性(图B)。同样,在其他数据集上,从scRNA-seq生成的scATAC-seq数据也与真实数据高度相关(Pearson系数高达0.9-0.98)。

这些结果表明,DCCA不仅是一个整合工具,更是一个强大的生成模型,能够以一种具有生物学意义的方式,补全和扩展现有的数据集。