HALO：用于单细胞多组学数据的分层因果建模.

paper：HALO: hierarchical causal modeling for single cell multi-omics data

0. TL; DR

HALO (Hierarchical cAusal modeLing)是一个从因果视角出发的单细胞多组学建模框架，核心假设是染色质可及性的变化是基因表达变化的原因，但这种因果关系存在两种模式：耦合（coupled）和解耦（decoupled）。

耦合部分： 捕捉RNA和ATAC之间同步变化、相互依赖的信息，反映了共享的调控逻辑。
解耦部分： 捕捉二者异步变化、相互独立的信息，揭示了模态特异的动态和染色质启动等现象。

在多个真实的多组学数据集上，HALO不仅在分离耦合/解耦表征方面优于现有SOTA方法（如MIRA, GLUE, MultiVI），还成功地利用解耦表征识别出了具有“染色质潜能”的干细胞亚群、揭示了在疾病（如肺纤维化）和正常发育中，不同细胞谱系特异性的表观遗传调控因子、发现了与T细胞分化和功能相关的、新的远距离cis调控关系。

1. 背景介绍

在基因调控时，染色质可及性（ATAC）和基因表达（RNA）通常被认为具有同步耦合关系：染色质开放，转录随之启动。大多数单细胞多组学整合方法，如MultiVI、scMVP等，致力于寻找和对齐两种模态共享的、同步变化的信息。

然而，真实的生物学过程远比这复杂。

染色质启动 (Chromatin Priming): 在发育和分化过程中，一些基因的调控区域（如增强子）可能已经变得高度开放（ATAC信号强），但基因本身却尚未转录或处于低表达状态（RNA信号弱）。这种状态使得细胞能够对未来的信号做出快速响应，是细胞多能性和可塑性的关键。
独立的染色质重塑： 细胞可能为了未来的某个功能，预先进行大规模的染色质重塑，而这个过程可能与当前的转录活动完全无关。
转录后调控： 即便基因已经转录，mRNA的稳定性、降解速率和翻译效率等转录后步骤，也会导致RNA水平和最终的蛋白质功能之间出现解耦。

现有的整合方法大多忽略了这种异步解耦调控模式，限制了捕捉细胞状态转换、谱系决定等关键动态过程的能力。HALO 引入了因果建模的思想，将多组学数据分解为耦合与解耦两个部分，并分层级地进行深入探索，旨在揭示ATAC-RNA关系背后更深层次的调控逻辑。

2. HALO 模型

HALO框架通过一种自顶向下的方式，在表征层面（representation level）和基因层面（individual gene level）对ATAC-RNA的因果关系进行建模。

2.1 表征层面：基于因果约束的潜在空间分解

在宏观的表征层面，HALO的核心是一个经过特殊因果约束的变分自编码器（VAE）框架。其目标是将scATAC-seq数据 $X_A$ 和scRNA-seq数据 $X_R$ 分别分解为耦合与解耦两部分潜在表征。ATAC的潜在表征 $Z_A$ 被分解为：$Z_A = [Z_A^d, Z_A^c]$，RNA的潜在表征 $Z_R$ 被分解为：$Z_R = [Z_R^d, Z_R^c]$，其中上标 $d$ 代表解耦（decoupled），$c$ 代表耦合（coupled）。

HALO引入了基于时间（或伪时间）的因果约束(Causal Constraints)。其基本假设是ATAC的变化是RNA变化的原因，但这种因果关系在耦合与解耦部分表现不同：

解耦约束： 要求 $p(Z_R^d | Z_A^d)$ 的变化与 $p(Z_A^d)$ 的变化在时间上是独立的。这意味着，尽管 $Z_A^d$ 引起了 $Z_R^d$，但驱动它们各自随时间变化的背后因素是不同的。
耦合约束： 要求 $p(Z_R^c | Z_A^c)$ 的变化与 $p(Z_A^c)$ 的变化在时间上是相关的。这意味着，驱动它们随时间变化的背后存在一个共同的混杂因素（confounder），导致它们的动态是同步的。

为了在模型中实现这些约束，HALO引入了一个基于核函数嵌入的统计量 $\Delta$，用于衡量两个分布随时间变化的依赖程度：

\[\Delta_{\hat{Z}_A \to Z_R} = \frac{\text{tr}(M_{Z_A} H M_{Z_R \mid Z_A} H)}{\sqrt{\text{tr}(M_{Z_A} H) \text{tr}(M_{Z_R \mid Z_A} H)}}\]

其中 $M$ 是格拉姆矩阵（Gram matrix）。这个 $\Delta$ 值越小，表示两个分布的变化越独立。因此因果约束可以被形式化为以下损失项：

解耦条件: $\Delta_{\hat{Z}_A^d \to Z_R^d} < \alpha$ 且 $\Delta_{\hat{Z}_A^d \to Z_R^d} - \Delta_{\hat{Z}_R^d \to Z_A^d} < 0$
耦合条件: $\Delta_{\hat{Z}_A^c \to Z_R^c} \ge \alpha$ 且 $\Delta_{\hat{Z}_R^c \to Z_A^c} \ge \alpha$

通过将这些约束作为正则项加入到VAE的ELBO损失函数中，模型被强迫去学习满足上述因果假设的、解耦的潜在表征。

HALO还设计了一个可解释的解码器，它能将最终的重构结果分解为来自每个潜在维度（无论是耦合还是解耦）的加性贡献，从而能够直观地理解每个潜在维度所代表的具体生物学功能（如富集了哪些基因或通路）。

2.2 基因层面：耦合/解耦分数的计算与因果推断

在微观的基因层面，HALO旨在为每一个基因-peak对量化其耦合或解耦的程度，并对解耦现象进行因果推断。

首先，对于每个基因，使用负二项回归将其表达量与邻近一定距离内（如上下游600kb）的所有peaks的开放度进行关联，并根据回归系数和基因组距离进行加权，从而为每个基因匹配上一组最相关的局部peaks。

对于匹配好的基因-peak对，再次使用上一节提到的依赖性度量 $\Delta$，来计算它们的表达谱（$\tilde{X}_R(t)$）和聚合后的peak信号（$\tilde{X}_A(t)$）在时间（或伪时间）上的变化依赖性。

\[\text{Decouple Score} = \text{sign}(\alpha - \Delta_{\tilde{X}_A \to \tilde{X}_R})(\Delta_{\tilde{X}_A \to \tilde{X}_R} - \Delta_{\tilde{X}_R \to \tilde{X}_A})\] \[\text{Couple Score} = -\text{Decouple Score}\]

当解耦分数为正时，我们认为该基因-peak对是解耦的。当耦合分数为正时，我们认为它们是耦合的。

对于那些表现出明显解耦行为的基因（即其局部peaks开放度随时间显著增加，但自身表达量却保持不变），一个自然的假设是这些开放的peaks可能不是在调控这个基因，而是在远距离调控（distal regulation）其他基因。为了验证这一假设，HALO引入了经典的格兰杰E因果检验（Granger Causality Test）。该检验的核心思想是：如果一个时间序列 $A$ 的过去值能够帮助预测另一个时间序列 $B$ 的未来值（在已知$B$自身过去值的条件下），那么我们就说$A$是$B$的“格兰杰原因”。

在我们的场景中，$A$是某个解耦peak的时间序列信号，$B$是其附近其他基因的表达时间序列。通过格兰杰因果检验可以系统性地筛选出那些由解耦peaks驱动的、潜在的远距离调控关系。

3. 实验分析

作者在多个具有复杂动态过程的真实多组学数据集上，对HALO的性能和生物学发现能力进行了深入的验证。

3.1 实验一：表征层面的耦合/解耦分析

作者首先在小鼠皮肤毛囊发育的SHARE-seq数据集上测试了HALO的表征分解能力。

HALO成功地将ATAC和RNA数据分解为耦合与解耦两部分。UMAP图显示，耦合表征（$Z_A^c, Z_R^c$）在两种模态间展现出高度相似的结构，反映了共享的发育进程（图B, F）。而解耦表征（$Z_A^d, Z_R^d$）则呈现出截然不同的模式，特别是在ATAC的解耦表征中，一个独特的细胞群被凸显出来（图C, G）。

深入分析发现，这个被ATAC解耦表征凸显出的细胞群，正是在原研究中被定义为具有高染色质潜能的新型根细胞（novel root cells）。这些细胞的染色质已经为分化做好了准备，但转录尚未启动，这正是典型的解耦现象。HALO通过其解耦表征，精准地捕捉到了这一关键的、具有谱系可塑性的干细胞亚群。

与MIRA, GLUE, MultiVI等方法相比，HALO学习到的耦合表征相关性最高，而解耦表征相关性最低，定量地证明了其在分离两种信息上的优越性（图M）。

3.2 实验二：基因层面的耦合/解耦分析

作者进一步在基因层面，分析了不同谱系分化过程中的耦合与解耦基因。

HALO成功地识别出了在毛囊分化不同分支（皮层、内根鞘、髓质）中表现出特异性解耦行为的基因。例如，关键发育调控因子Dlx3在所有三个分支中都表现出解耦行为：其邻近的peaks开放度随时间持续增加，但其自身表达量却保持稳定（图E-G）。

对于Dlx3这种解耦基因，作者提出了一个假设：它邻近的那些开放的peaks可能不是在调控Dlx3，而是在调控其他基因。通过格兰杰因果检验，作者发现，这些位于Dlx3超级增强子区域内的peaks，其开放动态与邻近的另一个基因Itga3的表达动态存在显著的因果关系。这一发现揭示了一个新的、由超级增强子介导的远距离调控网络，而这是传统方法无法发现的。

作者发现在多个数据集中，处于分化过渡状态或干细胞状态的细胞（如毛囊中的TAC细胞、大脑中的V-SVZ细胞），其解耦基因的比例显著更高。而处于终末分化状态的细胞，其耦合基因的比例则更高。这一普适性规律表明，解耦是细胞可塑性的一个重要分子特征。

3.3 实验三：揭示疾病中的表观遗传调控

作者将HALO应用于系统性硬化症相关间质性肺病（SSc-ILD）的多组学数据，以探究疾病状态下的调控失常。

在SSc-ILD中，肺泡II型（AT2）细胞的再生能力受损。HALO的ATAC解耦表征成功地将AT2细胞分为了两个亚群：一个仍能分化为AT1细胞（正常再生），另一个则异常地分化为分泌型细胞（纤维化相关）。进一步分析发现，后一个亚群的表观遗传状态（如TF基序活性、超级增强子富集）已经偏向于气道上皮细胞，揭示了其谱系失调的表观遗传基础。

作者发现，EMT主调节因子SOX4在SSc-ILD患者的AT1细胞分化过程中表现出异常的解耦行为。通过格兰杰因果检验，进一步发现SOX4的局部peaks与一个已知的纤维化相关长非编码RNA CASC15的表达存在因果关系。这一发现为SSc-ILD的发病机制提供了一个全新的、表观遗传驱动的解释。