Liam能够处理复杂多模态单细胞数据整合挑战.

paper：Liam tackles complex multimodal single-cell data integration challenges

0. TL; DR

liam (leveraging information across modalities) 是一种基于对抗变分自编码器的深度学习模型，用于配对多模态单细胞数据的同步水平整合（horizontal integration，即批次校正）和垂直整合（vertical integration，即多模态融合），以及镶嵌整合（mosaic integration）场景。

通过结合条件 VAE 架构与可调节的对抗训练策略，liam 能够利用重复样本等实验元信息，通过缩放参数 $\alpha$ 精确控制批次效应去除的强度，在有效消除技术变异的同时保留生物学差异。该方法在处理复杂实验设计、数据质量不均及缺失模态的镶嵌数据场景中表现出优越的鲁棒性和最先进的性能。

1. 背景介绍

单细胞测序技术（single-cell sequencing）的快速发展使得研究者能够同时在多个分子层面（如 DNA、RNA、蛋白质）刻画细胞状态。然而，随着实验规模的扩大和技术的多样化，数据整合面临核心挑战：

水平整合，即批次校正（batch correction）。当数据来自不同实验批次、测序平台或实验室时，技术变异（technical variation）往往掩盖了真实的生物学信号。现有方法如 Harmony、Seurat 等虽能有效校正批次效应，但在处理多模态数据时通常需要先进行水平整合，再进行垂直整合，流程繁琐且可能累积误差。
垂直整合，即多模态整合（multimodal integration）。如何有效融合来自不同模态（如 scRNA-seq、scATAC-seq、CITE-seq）的互补信息，构建统一的细胞表示，是当前计算生物学的关键难题。totalVI 等模型虽能同时处理水平与垂直整合，但对数据质量差异较为敏感。
镶嵌整合（mosaic integration），即数据集中同时包含配对（paired，同一细胞测得多种模态）和非配对（unimodal，仅测得单一模态）样本。随着实验设计的复杂化，如何在没有重复样本的情况下平衡批次效应去除与生物学变异保留，成为亟待解决的问题。

为应对这些挑战，作者提出了 liam。该方法通过对抗训练（adversarial training）策略，允许用户利用实验设计中的元信息（如重复样本状态）作为批次变量（batch variable），通过调节对抗损失（adversarial loss）的权重参数 $\alpha$，灵活控制整合强度。此外，liam 的早期阶段整合策略（early-stage integration）对低质量模态具有内在鲁棒性，为复杂真实场景下的单细胞多组学分析提供了统一的计算框架。

2. 方法详解

liam 基于变分自编码器框架，专为配对多模态数据（如 RNA + ATAC 或 RNA + ADT）设计。对于每个细胞 $n$，模型接收两种模态的输入特征，通过编码器学习低维潜在表示 $z_n$，再通过条件解码器重构原始数据。

2.1 模型设计

编码器包含两个独立的输入层，分别对应两种模态（如 modality 1 和 modality 2），后接各自的隐藏层。对于镶嵌整合场景中的非配对细胞（仅观测到单一模态），另一模态的输入被置为零。

两个模态隐藏层的输出被拼接，共同用于建模 $k$ 维潜在变量 $z_n$（默认 $k=20$）。此外，每个模态的隐藏层输出还分别用于建模细胞特异性大小因子（cell-specific size factors）：$l_n$ 对应 rna 模态，$d_n$ 对应 atac/adt 模态。这些大小因子具有批次特定的先验分布，构成水平整合策略的一部分。

模型假设细胞特异性大小因子服从对数正态分布（log-normally distributed），潜在变量 $z_n$ 服从逻辑正态分布（logistic-normal distributed）：

\[z_n \sim \text{LogisticNormal}(\mu_n, \sigma_n^2)\]

逻辑正态分布的优势在于潜在因子之和为 $1$，便于进行原型分析（archetype analysis）。

对于 RNA 数据和 CLR 变换后的 ADT 数据，模型采用负二项分布（negative binomial distribution）建模；对于染色质可及性（ATAC）数据，则采用负多项分布（negative multinomial distribution）建模。

liam 采用两个独立的解码器，每种模态一个。每个解码器包含两个隐藏层，输入包括：

从潜在变量 $z_n$ 采样的样本
批次变量 $s_n$ 的 one-hot 编码（作为条件输入）

这种条件解码器（conditional decoder）架构允许模型利用批次信息重构输入数据，而无需将批次相关信息编码到潜在空间 $z_n$ 中，这是实现水平整合的关键机制。

2.2 对抗训练与批次效应去除

2.2.1 对抗损失机制

为实现可调节的批次校正，liam 引入了对抗训练策略。模型在标准 VAE 损失基础上增加对抗损失项，通过对抗判别器（adversarial discriminator）区分不同批次的细胞，而编码器则学习欺骗判别器，从而去除潜在空间中的批次特异性信息。

对抗损失的权重由缩放参数 $\alpha$ 控制。总损失函数可表示为：

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{recon}} + \alpha \cdot \mathcal{L}_{\text{adv}}\]

其中 $\mathcal{L}_{\text{recon}}$ 为重构损失（包括 RNA/ADT 的负二项损失和 ATAC 的负多项损失）， $\mathcal{L}_{\text{adv}}$ 为对抗损失。

2.2.2 批次变量的选择

liam 允许用户指定不同的批次变量（batch variable）：

若选择 replicate（重复样本）作为批次变量，模型将去除重复间的技术变异，同时保留条件（condition）间的生物学差异
若选择 sample（单个样本）作为批次变量，模型将去除所有样本间的变异

通过调节 $\alpha \in {1, 5, 10, 25, 50, 100, 1000}$，用户可以精确控制批次效应去除的强度。当存在重复样本时，可利用 iLISI（inverse Simpson’s index）等指标评估重复样本的混合程度（批次去除效果）与条件分离程度（生物保留程度），选择最优 $\alpha$。

2.3 镶嵌整合策略

对于镶嵌数据（mosaic data），即同时包含配对样本（paired）和单模态样本（unimodal）的场景，liam 通过以下策略处理：

早期阶段整合（early-stage integration）：在编码器阶段即整合两种模态的信息，而非后期拼接潜在空间
零输入处理：对于缺失的模态，将该分支的输入置为零，模型通过训练学习处理这种缺失模式
条件解码器：利用批次变量指导重构，确保不同模态的数据在潜在空间中对齐

3. 实验分析

3.1 治疗-对照实验：利用重复样本优化批次校正

作者展示了 liam 在 DOGMA-seq PBMC 数据（T 细胞刺激 vs 未刺激，含两个重复）上的应用，验证了其利用重复样本信息指导批次校正的能力。

Figure A：实验设计示意图。数据包含两个重复（Rep1 和 Rep2），每个重复包含刺激（Stim）和对照（Ctrl）两个条件，共四个样本：Rep1_Stim、Rep1_Ctrl、Rep2_Stim、Rep2_Ctrl。
Figure B：无批次校正（no batch variable）的 UMAP 可视化。细胞按样本着色显示明显的批次效应，四个样本形成分离的簇，技术变异掩盖了生物学信号。
Figure C：使用不同批次变量的 UMAP 比较。上图使用 replicate 作为批次变量，下图使用 sample 作为批次变量；右侧两列显示细胞表面蛋白 CD69（激活标记）和 CD3-2 的表达水平。
- 当使用 replicate 作为批次变量时（上行），UMAP 显示两个重复样本充分混合（紫色和粉色重叠），同时保留了对照与刺激条件的分离（黑色虚线圈出 CD69 高表达的激活 T 细胞群）。CD3-2 表达在刺激样本中选择性缺失（蓝色区域），这一细微的生物学差异被成功保留。
- 当使用 sample 作为批次变量时（下行），虽然重复样本混合良好，但条件间的分离程度减弱，部分生物学信号丢失。
Figure D：增加对抗损失贡献（adversarial loss scaling，$\alpha=50$）后的 UMAP。左图使用 replicate 作为批次变量，右图使用 sample 作为批次变量。随着对抗强度增加，重复样本（左图）或样本（右图）在潜在空间中进一步混合。
Figure E：不同 $\alpha$ 值下，以 replicate 为批次变量的 iLISI 分数。随着 $\alpha$ 增加（从 $\times 1$ 到 $\times 1000$），replicate 的 iLISI 分数上升（重复样本混合更好），而 condition 的 iLISI 分数保持稳定（条件间分离维持），表明该策略能有效去除重复间技术变异同时保留条件间生物学差异。
Figure F：不同 $\alpha$ 值下，以 sample 为批次变量的 iLISI 分数。随着 $\alpha$ 增加，sample 的 iLISI 分数上升（样本混合更好），但 condition 的 iLISI 分数也逐渐上升（条件间分离丧失），表明在没有重复样本信息指导时，过度去除批次效应可能导致生物学信号丢失。

3.2 扩展的Treatment-control分析：跨数据集整合

作者进一步整合了两个额外的 PBMC 数据集（10x_Multiome_nuclei 和 Swanson_Multiome_cells），这些数据集与 DOGMA-seq 数据存在显著的批次效应。

Figure A 显示无校正时，不同数据集的细胞完全分离。
Figure B 显示，使用 $\alpha=25$ 的 liam 模型能够有效混合不同数据集，同时保留 CD69 和 CD3-2 的表达模式。特别是，DOGMA 数据集中的活化 T 细胞（高 CD69）形成了独立的聚类。
Figure C 利用 10x_Multiome_nuclei 的专家注释验证，整合后的嵌入保留了细胞类型特异性（如经典单核细胞、NK 细胞等）。
Figure D 显示，随着 $\alpha$ 增大，批次去除指标 (iLISI sample 和 iLISI replicate) 持续改善。
Figure E 显示，在 $\alpha=25$ 时，生物保守性指标 (NMI, ASW label) 保持在高位，同时条件特异性 (iLISI condition) 逐渐被消除，表明模型在去除技术批次效应的同时保留了细胞类型水平的生物学变异。

3.3 NeurIPS Competition基准测试

作者在 NeurIPS 2021 多模态单细胞数据整合竞赛的数据集上进行了全面评估，该数据集包含来自4个位点 (site) 和10个供体 (donor) 的骨髓单核细胞 (BMMCs)，具有复杂的嵌套批次效应。

Figure A 展示了 Multiome 数据上的整合结果：liam 成功去除了位点 (site) 和样本 (sample) 的批次效应，细胞按细胞类型聚集；MultiVI 表现次之，但部分细胞类型仍存在批次混合不完全；LSL_AE 未能有效去除位点间的批次效应，细胞明显按位点分层。
Figure B 的排序指标显示，liam 在生物保守性 (bio-conservation) 和批次去除 (batch removal) 方面均优于 MultiVI 和 LSL_AE。
Figure C 展示了 CITE-seq 数据上的结果：liam 和 totalVI 都表现良好，成功整合了不同位点的数据；Guanlab-dengkw (GD) 虽然保留了生物信号，但未能去除批次效应，细胞按位点分离。
Figure D 的排序指标表明，liam 和 totalVI 在批次去除方面优于竞赛最优方法 GD，liam 在基于注释的生物保守性指标 (NMI, ASW label) 上表现最佳。

3.4 模型组件消融与对抗损失调参

Figure A 展示了模型组件消融实验：
- VAE（无批次校正）：生物保守性尚可，但批次去除失败；
- batchVAE（仅批次特异尺寸因子和离散参数）：批次去除略有改善；
- CDVAE（条件解码器）：显著改善批次去除，生物保守性保持；
- CVAE（条件编码器+解码器）：与 CDVAE 性能相近；
- AVAE（仅对抗训练，$\alpha=1$）：批次去除失败；
- BAVAE（条件解码器+对抗训练，默认 $\alpha=1$）：最佳性能。
Figure B 展示了对抗损失缩放的影响：随着 $\alpha$ 从1增加到25，批次去除指标 (asw_batch_d1, iLISI_d1) 显著改善，而生物保守性 (NMI, cc_cons) 在 $\alpha \leq 25$ 时保持稳定。当 $\alpha > 25$（如1000）时，生物保守性显著下降。
Figure C 评估了数据质量差异场景（ATAC 特征子采样至25%和10%）：liam（早期阶段整合）在生物保守性上优于 liam concat（后期拼接）和 MultiVI；随着 ATAC 质量下降（10%），liam 的优势更加明显。
Figure D 显示，单模态 RNA 模型（10维）能清晰区分细胞类型，而单模态 ATAC 模型在数据质量下降时（25%和10%）性能急剧恶化。
Figure E 显示，在联合建模时，liam 能够有效利用 RNA 信息补偿低质量 ATAC，保持清晰的细胞类型分离；而 liam concat 和 MultiVI 在 ATAC 质量下降时表现较差。

3.5 镶嵌整合：处理低质量模态的鲁棒性

作者设计了三种镶嵌场景进行测试：

mosaic full：部分样本仅含 RNA，部分仅含 ATAC，部分为配对样本
mosaic a：在 mosaic full 基础上，对单模态 ATAC 样本的特征值进行 $10\%$ 子采样（模拟低质量数据）
mosaic b：在 mosaic full 基础上，对配对样本中的 ATAC 模态进行 $10\%$ 子采样

作者展示了 liam 在 NeurIPS 2021 竞赛 Multiome 数据（RNA + ATAC）上的镶嵌整合性能，验证了其在低质量模态场景下的鲁棒性。

Figure A：镶嵌场景设计示意图。
- mosaic full：站点 S1 和 S3 仅保留 RNA 数据，站点 S2 仅保留 ATAC 数据，站点 S4 保留配对数据
- mosaic a：在 mosaic full 基础上，对单模态 ATAC 样本（S2）的特征值进行 $10\%$ 子采样
- mosaic b：在 mosaic full 基础上，对配对样本（S4）中的 ATAC 模态进行 $10\%$ 子采样，模拟配对数据中某一模态质量低下的情况
Figure B：mosaic b 场景下 liam（$\alpha=5$）与 MultiVI 的 UMAP 比较。
- 上行按细胞类型着色：liam（左）成功将不同细胞类型（如 B cells、CD14+ Mono、CD4+ T 等）分离成 distinct 的簇；MultiVI（右）虽然也能分离主要细胞类型，但部分群体（如 HSC、Erythroblast）的分离度较低。
- 下行按模态着色（RNA 为粉色，ATAC 为蓝色，paired 为紫色）：liam 实现了三种模态数据的均匀混合，而 MultiVI 的整合效果较差，不同模态的细胞分布存在明显差异。
Figure C：不同镶嵌场景下的性能指标比较（liam vs MultiVI）。这些结果表明，即使在 ATAC 数据质量严重下降（$10\%$ 子采样）的 mosaic b 场景中，liam 仍能通过早期阶段整合策略有效利用 RNA 信息补偿 ATAC 模态的缺失，维持稳定的整合性能。
- bio-cons: nmi（基于细胞类型标签的 NMI）：在 mosaic full、mosaic a、mosaic b 三种场景中，liam（$\times 5$）的 NMI 值均高于 MultiVI，表明 liam 能更好地保留细胞类型结构。
- bio-cons: cc_cons（细胞周期 conserved 度）：liam 在该指标上同样优于 MultiVI。
- batch removal: asw_batch_d1（基于捐赠者 d1 的批次 ASW，越低越好）：liam 在去除批次效应方面表现更优。
- batch removal: iLISI_d1（基于捐赠者 d1 的 iLISI，越高越好）：liam 实现了更好的批次混合。
Figure D：mosaic b 场景下不同对抗损失缩放参数 $\alpha$ 的性能排名。
- 表格左侧显示生物 conserved 指标（nmi、asw_label、cc_cons、ti_cons）的排名均值：随着 $\alpha$ 从 $\times 1$ 增加到 $\times 25$，liam 的生物 conserved 性能逐渐提升（排名数值降低），但过度增加（$\times 100$、$\times 1000$，未显示）可能导致性能下降。
- 表格右侧显示批次去除指标（asw_batch、iLISI）在不同批次变量（site、d1、modality、sample）上的排名均值：随着 $\alpha$ 增加，批次去除效果普遍提升。MultiVI 在生物 conserved 方面排名较高（$4.4$），但在批次去除方面表现中等（$3.3$）；而 liam（$\times 5$）在两者之间取得了更好的平衡（生物 conserved 排名 $1.7$，批次去除排名 $1.2$）。