Liam能够处理复杂多模态单细胞数据整合挑战.

0. TL; DR

liam (leveraging information across modalities) 是一种基于对抗变分自编码器的深度学习模型,用于配对多模态单细胞数据的同步水平整合(horizontal integration,即批次校正)和垂直整合(vertical integration,即多模态融合),以及镶嵌整合(mosaic integration)场景。

通过结合条件 VAE 架构与可调节的对抗训练策略,liam 能够利用重复样本等实验元信息,通过缩放参数 $\alpha$ 精确控制批次效应去除的强度,在有效消除技术变异的同时保留生物学差异。该方法在处理复杂实验设计、数据质量不均及缺失模态的镶嵌数据场景中表现出优越的鲁棒性和最先进的性能。

1. 背景介绍

单细胞测序技术(single-cell sequencing)的快速发展使得研究者能够同时在多个分子层面(如 DNARNA、蛋白质)刻画细胞状态。然而,随着实验规模的扩大和技术的多样化,数据整合面临核心挑战:

为应对这些挑战,作者提出了 liam。该方法通过对抗训练(adversarial training)策略,允许用户利用实验设计中的元信息(如重复样本状态)作为批次变量(batch variable),通过调节对抗损失(adversarial loss)的权重参数 $\alpha$,灵活控制整合强度。此外,liam 的早期阶段整合策略(early-stage integration)对低质量模态具有内在鲁棒性,为复杂真实场景下的单细胞多组学分析提供了统一的计算框架。

2. 方法详解

liam 基于变分自编码器框架,专为配对多模态数据(如 RNA + ATACRNA + ADT)设计。对于每个细胞 $n$,模型接收两种模态的输入特征,通过编码器学习低维潜在表示 $z_n$,再通过条件解码器重构原始数据。

2.1 模型设计

编码器包含两个独立的输入层,分别对应两种模态(如 modality 1modality 2),后接各自的隐藏层。对于镶嵌整合场景中的非配对细胞(仅观测到单一模态),另一模态的输入被置为零。

两个模态隐藏层的输出被拼接,共同用于建模 $k$ 维潜在变量 $z_n$(默认 $k=20$)。此外,每个模态的隐藏层输出还分别用于建模细胞特异性大小因子(cell-specific size factors):$l_n$ 对应 rna 模态,$d_n$ 对应 atac/adt 模态。这些大小因子具有批次特定的先验分布,构成水平整合策略的一部分。

模型假设细胞特异性大小因子服从对数正态分布(log-normally distributed),潜在变量 $z_n$ 服从逻辑正态分布(logistic-normal distributed):

\[z_n \sim \text{LogisticNormal}(\mu_n, \sigma_n^2)\]

逻辑正态分布的优势在于潜在因子之和为 $1$,便于进行原型分析(archetype analysis)。

对于 RNA 数据和 CLR 变换后的 ADT 数据,模型采用负二项分布(negative binomial distribution)建模;对于染色质可及性(ATAC)数据,则采用负多项分布(negative multinomial distribution)建模。

liam 采用两个独立的解码器,每种模态一个。每个解码器包含两个隐藏层,输入包括:

  1. 从潜在变量 $z_n$ 采样的样本
  2. 批次变量 $s_n$ 的 one-hot 编码(作为条件输入)

这种条件解码器(conditional decoder)架构允许模型利用批次信息重构输入数据,而无需将批次相关信息编码到潜在空间 $z_n$ 中,这是实现水平整合的关键机制。

2.2 对抗训练与批次效应去除

2.2.1 对抗损失机制

为实现可调节的批次校正,liam 引入了对抗训练策略。模型在标准 VAE 损失基础上增加对抗损失项,通过对抗判别器(adversarial discriminator)区分不同批次的细胞,而编码器则学习欺骗判别器,从而去除潜在空间中的批次特异性信息。

对抗损失的权重由缩放参数 $\alpha$ 控制。总损失函数可表示为:

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{recon}} + \alpha \cdot \mathcal{L}_{\text{adv}}\]

其中 \(\mathcal{L}_{\text{recon}}\) 为重构损失(包括 RNA/ADT 的负二项损失和 ATAC 的负多项损失), \(\mathcal{L}_{\text{adv}}\) 为对抗损失。

2.2.2 批次变量的选择

liam 允许用户指定不同的批次变量(batch variable):

通过调节 $\alpha \in {1, 5, 10, 25, 50, 100, 1000}$,用户可以精确控制批次效应去除的强度。当存在重复样本时,可利用 iLISIinverse Simpson’s index)等指标评估重复样本的混合程度(批次去除效果)与条件分离程度(生物保留程度),选择最优 $\alpha$。

2.3 镶嵌整合策略

对于镶嵌数据(mosaic data),即同时包含配对样本(paired)和单模态样本(unimodal)的场景,liam 通过以下策略处理:

  1. 早期阶段整合(early-stage integration):在编码器阶段即整合两种模态的信息,而非后期拼接潜在空间
  2. 零输入处理:对于缺失的模态,将该分支的输入置为零,模型通过训练学习处理这种缺失模式
  3. 条件解码器:利用批次变量指导重构,确保不同模态的数据在潜在空间中对齐

3. 实验分析

3.1 治疗-对照实验:利用重复样本优化批次校正

作者展示了 liamDOGMA-seq PBMC 数据(T 细胞刺激 vs 未刺激,含两个重复)上的应用,验证了其利用重复样本信息指导批次校正的能力。

3.2 扩展的Treatment-control分析:跨数据集整合

作者进一步整合了两个额外的 PBMC 数据集(10x_Multiome_nucleiSwanson_Multiome_cells),这些数据集与 DOGMA-seq 数据存在显著的批次效应。

3.3 NeurIPS Competition基准测试

作者在 NeurIPS 2021 多模态单细胞数据整合竞赛的数据集上进行了全面评估,该数据集包含来自4个位点 (site) 和10个供体 (donor) 的骨髓单核细胞 (BMMCs),具有复杂的嵌套批次效应。

3.4 模型组件消融与对抗损失调参

3.5 镶嵌整合:处理低质量模态的鲁棒性

作者设计了三种镶嵌场景进行测试:

作者展示了 liamNeurIPS 2021 竞赛 Multiome 数据(RNA + ATAC)上的镶嵌整合性能,验证了其在低质量模态场景下的鲁棒性。