scDART:集成不匹配的RNA和ATAC数据同时学习跨模态关系.

0. TL; DR

本文提出了 scDART (single cell Deep learning model for ATAC-Seq and RNA-Seq Trajectory integration),一个能同时整合数据和学习跨模态关系的深度学习框架。scDART的核心是一个可训练的基因活性模块(gene activity module),学习从scATAC-seq数据到scRNA-seq数据的非线性映射关系。scDART的损失函数引入了扩散距离(diffusion distance)和最大均值差异(Maximum Mean Discrepancy, MMD)。

在多个模拟和真实数据集上,scDART在保留轨迹结构、恢复细胞匹配关系以及预测基因表达等多个方面,均显著优于Seurat v3, Liger, UnionCom等主流方法。特别地,scDART整合后的数据能够发现更小的、在单一模态中被忽略的分化分支。

1. 背景介绍

scRNA-seq揭示了细胞在“说什么”(基因表达),而scATAC-seq则揭示了细胞“能说什么”(基因调控潜力)。将两者结合,是理解基因调控网络驱动细胞命运决定的关键。尽管已经有技术能同时测量这两种信息,但它们成本高昂且尚未普及。面临的更普遍的情况是,手头有两批数据:一批是scRNA-seq,另一批是scATAC-seq,它们来自同一种组织,但并非来自同一个细胞。

现有方法,如Seurat v3Liger,在处理非配对(unmatched)数据的对角线整合问题时,通常遵循一个“两步走”策略:

  1. 定义基因活性矩阵 (Gene Activity Matrix, GAM): 首先需要一个矩阵来描述哪些ATAC-seq的开放区域(peaks)与哪些基因相关。最常见的做法是基于基因组的物理距离——如果一个peak位于某个基因启动子上游的2kb范围内,就认为它们相关。
  2. 线性转换:然后将这个GAMscATAC-seqcount矩阵相乘,得到一个伪scRNA-seq矩阵。这样两种模态就被强行转换到了同一个“基因表达”空间,后续就可以用标准方法进行整合了。

这个经典流程看似合理,却隐藏着两大根本性缺陷:

此外,大多数整合方法的设计初衷是处理离散的细胞簇(clusters),它们在保留连续的细胞分化轨迹(trajectories)方面能力有限。在发育生物学等领域,细胞的身份更多地由其在分化路径上的位置(即伪时间)来定义,而不是一个固定的类别。

scDART摆脱对固定、粗糙GAM的依赖,以数据驱动的方式学习更真实的、非线性的跨模态调控关系。专门为保留连续的轨迹结构而设计,而不仅仅是离散的细胞簇。

2. scDART 模型

2.1 模型结构

scDART 模型由基因活性模块和投影模块组成。

⚪ 基因活性模块 (Gene Activity Function Module)

基因活性模块是一个三层的全连接神经网络,其任务是学习一个非线性的基因活性函数。输入是一个细胞的scATAC-seq谱(一个向量,代表所有peaks的开放情况);输出是该细胞的伪scRNA-seq谱(一个向量,代表所有基因的预测表达量)。

\[x'_{\text{RNA}} = W_3 \cdot (\text{ReLU}_{\text{leaky}}(W_2 \cdot (\text{ReLU}_{\text{leaky}}(W_1 \cdot x_{\text{ATAC}}))))\]

其中,$W_1, W_2, W_3$ 是网络的可学习权重。这个模块的核心价值在于,它不再依赖固定的GAM,而是通过端到端的训练,自动学习从染色质开放状态到基因表达的复杂、非线性映射。

⚪ 投影模块 (Projection Module)

投影模块同样是一个神经网络,负责将高维的基因表达谱(无论是真实的scRNA-seq还是伪scRNA-seq)投影到一个共享的、低维的潜在空间。输入是真实的scRNA-seq数据,或由基因活性模块生成的伪scRNA-seq数据;输出是细胞在低维潜在空间中的嵌入向量 $Z_{\text{RNA}}$ 或 $Z_{\text{ATAC}}$。

2.2 损失函数

scDART的总损失函数 $L$ 由三个部分组成,旨在同时满足轨迹保留、模态对齐和调控关系学习三大目标:

\[L = L_{\text{dist}} + \lambda_{mmd} \cdot L_{mmd} + \lambda_{g} \cdot L_{GAM}\]

⚪ 轨迹结构保持损失 $L_{\text{dist}}$ (Diffusion Distance Loss)

$L_{\text{dist}}$是scDART为保留轨迹而设计的损失。传统方法通常要求潜在空间中的欧氏距离与原始高维空间的欧氏距离相似,但这对于非线性的轨迹流形来说效果不佳。

scDART要求潜在空间中的欧氏距离去逼近原始空间中的扩散距离 (diffusion distance)。扩散距离衡量的是在细胞状态转移图上,从一个细胞“随机游走”到另一个细胞的难易程度,它能更好地捕捉细胞在连续轨迹上的相对位置。

分别计算scRNA-seqscATAC-seq数据在各自原始空间中的扩散距离矩阵 $D_X$ 和在潜在空间中的欧氏距离矩阵 $D_Z$。然后,通过最小化这两个距离分布的KL散度 (KL-Divergence) 来实现结构保持:

\[\begin{aligned} L_{\text{dist}}(Z, X) &= \text{KL}(Q_Z \parallel Q_X) \\&= \sum_{i,j} Q_Z(i,j) \log \frac{Q_Z(i,j)}{Q_X(i,j)} \end{aligned}\]

其中 $Q_Z$ 和 $Q_X$ 是由 $D_Z$ 和 $D_X$ 归一化得到的概率分布。这种非对称的KL散度损失会强力惩罚那些在原始空间中相近、但在潜在空间中被拉远的细胞对,从而特别有利于保持轨迹的局部连通性。

⚪ 模态对齐损失 $L_{mmd}$ (Maximum Mean Discrepancy Loss)

为了将scRNA-seqscATAC-seq两种模态的数据对齐到同一个潜在空间,scDART采用了最大均值差异 (MMD)MMD是一种非参数的统计检验,用于衡量两个概率分布的差异。通过最小化MMD损失,可以有效地拉近 $Z_{\text{RNA}}$ 和 $Z_{\text{ATAC}}$ 两个嵌入向量集的整体分布,实现批次校正和模态融合。

\[\begin{aligned} L_{\text{mmd}}(Z_{\text{RNA}}, Z_{\text{ATAC}}) &= \mathbb{E}[K(Z_{\text{RNA}}, Z_{\text{RNA}})] \\ &+ \mathbb{E}[K(Z_{\text{ATAC}}, Z_{\text{ATAC}})] \\ &- 2\mathbb{E}[K(Z_{\text{RNA}}, Z_{\text{ATAC}})] \end{aligned}\]

其中 $K$ 是一个高斯核函数。

⚪ 基因活性先验损失 $L_{GAM}$ (Gene Activity Matrix Loss)

虽然scDART致力于学习一个全新的基因活性函数,但并不想完全抛弃粗糙的预定义GAM $A$ 中可能包含的有用信息。将其作为一种先验知识或正则项来指导基因活性模块的学习。

假设预定义GAM $A$ 中的 $0$ 是比较可靠的(即相距很远的peakgene基本没有调控关系),而 $1$ 则可能是假阳性。基于此设计了一个损失项,专门惩罚那些在 $A$ 中为 $0$、但在学习到的基因活性模块中权重不为 $0$ 的连接:

\[L_{GAM} = \left\| \left(\prod_{i=1}^3 W_i\right) \odot \hat{A} \right\|_1\]

其中 $\prod W_i$ 是学习到的端到端线性等效权重矩阵,$\hat{A}$ 是GAM $A$ 的元素取反矩阵,$\odot$ 是元素级乘法。这个L1正则项鼓励模型在没有先验支持的连接上学习到稀疏的权重。

⚪ scDART-anchor

在某些情况下,可能知道少量细胞的配对信息(例如,两个发育轨迹的起点细胞应该是同一种类型)。scDART可以利用这些Anchor细胞来进一步提升整合效果,只需在总损失中加入一个简单的anchor loss,强制这些Anchor细胞在潜在空间中的平均位置尽可能靠近:

\[L_{\text{anchor}} = \| \bar{z}_{\text{anchor-rna}} - \bar{z}_{\text{anchor-atac}} \|_2^2\]

3. 实验分析

作者在多个模拟和真实的scRNA-seq/scATAC-seq数据集上对scDART进行了全面测试,并与Seurat v3, Liger, UnionCom, MMD-MA, scJoint等主流方法进行了比较。

3.1 实验一:配对数据重建细胞轨迹与匹配关系 (SNARE-seq)

首先在一个同时测量了RNAATAC的配对数据集上进行测试,但假装它们来自不同批次。这样就可以利用已知的真实配对关系来定量评估整合效果。

UMAP可视化清晰地显示,只有scDART的潜在空间保留了从祖细胞到成熟神经元的完整、线性的分化轨迹。其他方法或扭曲了轨迹,或未能正确连接细胞类型。

scDART能够很好地将两种模态的数据混合在一起,有效去除批次效应,而SeuratscJoint则未能实现充分混合。

作者通过邻域重叠得分(Neighborhood overlap score)和余弦相似度来定量评估细胞匹配的准确性。结果显示,scDART在这两项指标上均名列前茅,显著优于大部分基线方法。

作者分别在两种模态上推断伪时间,并计算配对细胞伪时间的相关性。scDART的相关性最高,表明其整合结果最大程度地保留了细胞在发育时间轴上的一致性。

作者比较了scDARTscATAC-seq预测的伪scRNA-seq与真实的scRNA-seq之间的相关性。结果表明,对于绝大多数基因,scDART的非线性模型预测的准确性(Pearson相关性)显著高于传统的线性GAM变换方法。这直接证明了学习非线性调控关系的必要性和scDART的优越性。

3.3 实验二:整合非配对真实数据集 (人&鼠发育)

作者在两个来自不同文献的、完全非配对的人类造血和小鼠内皮细胞发育数据集上测试了scDART

在这两个更具挑战性的真实场景中,scDART都成功地将两种模态的数据整合到了一个保留了正确分化轨迹(线性或分叉)的潜在空间中。

基于scDART整合后的轨迹,进行的差异表达基因和差异可及motif分析,成功地重新发现了文献中报道的、驱动相应细胞分化过程的关键转录因子家族(如RUNX, GATA, SOX等)。这证明了scDART的整合结果对于下游生物学发现具有切实的指导意义。

3.4 实验三:模拟数据验证与发现罕见分支

作者设计了一个新的模拟器,能够生成具有真实调控关系的scRNA-seqscATAC-seq数据,并进行了定量评估。

在模拟数据集上,scDART在轨迹分支分配准确率(F1-score)和伪时间推断准确率(Kendall-τ score)上,均取得了比所有基线方法更优或相当的性能。

scDART能够通过整合两种模态的数据,检测到那些在单一模态中因细胞数量过少而被忽略的罕见分化分支。一个在单独的scRNA-seqscATAC-seq数据中都无法被识别的小分支,在经过scDART整合后被清晰地呈现出来。这充分体现了多模态整合的威力。