使用MIDAS进行单细胞多模态数据的马赛克整合与知识迁移.
0. TL; DR
MIDAS(Mosaic Integration and Knowledge Transfer)是一种深度概率框架,通过自监督模态对齐和信息论潜在解耦,同时实现马赛克数据的降维、插补和批次校正。MIDAS 假设每个细胞的观测计数由两个与模态无关的潜在变量生成:生物状态 $c$ 和技术噪声 $u$,并利用专家乘积实现可扩展的变分推断。
作者在多种三模态和马赛克整合任务中验证了 MIDAS 的优越性,并构建了包含 DOGMA-seq 和 TEA-seq 数据的人外周血单核细胞(PBMC)单细胞三模态图谱。通过定制化的迁移学习和互参考映射方案,MIDAS 实现了从图谱到新数据的知识转移,在骨髓单核细胞(BMMC)马赛克数据集上展示了其在马赛克整合、伪时间分析和跨组织知识转移中的多功能性。
1. 背景介绍
近年来,单细胞多组学测序技术(scMulti-omics)的革命性发展使研究者能够在单细胞分辨率下同时测量多种分子模态,包括基因表达(RNA)、蛋白质丰度(通过 ADT,antibody-derived tags)和染色质可及性(ATAC)。例如,DOGMA-seq、TEA-seq、CITE-seq 和 ASAP-seq 等技术不仅能在多个分子层面揭示细胞异质性,实现更精细的细胞特征识别,还能揭示跨组学的调控联系。
然而,随着数据规模的快速增长,如何整合来自不同来源的大规模高维数据成为迫切需求。由于不同研究采用的测序技术多样,产生的数据集往往包含异质的组学组合,某些数据集可能缺少一个或多个模态,形成了马赛克数据(mosaic data)。这种数据的整合面临三大挑战:
- 模态异质性:不同模态具有不同的统计特性和噪声水平;
- 批次效应:不同实验批次、技术平台或供体(donors)引入的技术变异(technical variation)需要与生物信号分离;
- 缺失模态处理:需要在存在缺失模态的情况下进行准确插补和对齐。
现有的多模态整合方法大多针对完整模态的双模态或三模态数据设计,如 MOFA+、GLUE、totalVI 等。近期虽有 scVAEIT、scMoMaT、StabMap 和 Multigrate 等方法尝试处理马赛克整合,但这些方法在模态对齐、批次校正和下游分析支持方面仍存在局限。
为解决这些问题,作者开发了 MIDAS,其核心思想是将每个细胞的观测建模为由生物状态(体现细胞异质性)和技术噪声(体现实验引入的不必要变异)生成的过程。通过深度生成模型,MIDAS 能够在统一框架下实现降维、模态插补和批次校正。
2. 方法介绍
MIDAS 是一个基于变分自编码器(Variational Autoencoder, VAE)的深度生成模型,专为包含 ATAC、RNA 和 ADT 测量的不完整单细胞多模态数据设计。对于第 $n$ 个细胞,设 $s_n$ 为批次 ID,$x_n^m$ 为模态 $m$ 的计数向量,其中 $m \in \mathcal{M}_n \subseteq {\text{ATAC}, \text{RNA}, \text{ADT}}$。MIDAS 假设观测变量由两个模态无关的潜在变量生成:
- 生物状态 $c_n \in \mathbb{R}^{D_c}$:捕获细胞异质性;
- 技术噪声 $u_n \in \mathbb{R}^{D_u}$:捕获批次相关的技术变异。
联合分布分解为: \(p(x, s, c, u) = p(c)p(u)p(s|u)\prod_{m \in \mathcal{M}_n} p(x^m|c, u)\)
其中 $p(c)$ 和 $p(u)$ 设为各向同性高斯分布,$p(s|u)$ 为分类分布,由神经网络参数化。

⚪ 可扩展变分推断与专家乘积
由于马赛克数据中模态组合多种多样(共 $2^M-1$ 种可能),直接为每种组合构建编码器不可扩展。MIDAS 采用专家乘积(Product of Experts, PoE)来模块化地构建变分后验 $q_\phi(c, u | x_n, s_n)$。
将后验分解为:
\[q_\phi(z | x_n, s_n) \propto p(z) \tilde{q}_\phi(z | s_n) \prod_{m \in \mathcal{M}_n} \tilde{q}_\phi(z | x_n^m)\]其中 $z = {c, u}$,$\tilde{q}_\phi(z | \cdot)$ 是各专家(批次 ID 或单模态)的归一化近似后验,均为对角高斯分布 $\mathcal{N}(\mu, \text{diag}(\nu))$。
通过 PoE,总后验的均值 $\mu_n$ 和方差 $\nu_n$ 可由各专家的均值 $\mu_n^m$ 和方差 $\nu_n^m$ 解析计算:
\[\mu_n = \left(\frac{\mu_n^s}{\nu_n^s} + \sum_{m \in \mathcal{M}_n} \frac{\mu_n^m}{\nu_n^m}\right) \odot \nu_n \\ \nu_n = \left(1 + \frac{1}{\nu_n^s} + \sum_{m \in \mathcal{M}_n} \frac{1}{\nu_n^m}\right)^{-1}\]其中 $\odot$ 表示 Hadamard 积。这种设计将模型模块化,仅需 $M+1$ 个神经网络即可处理所有模态组合。
⚪ 自监督模态对齐
为实现跨模态推断,MIDAS 通过自监督学习在潜在空间对齐不同模态。通过为每个细胞构建单模态观测 ${x_n^m, s_n}_{m \in \mathcal{M}_n}$,并定义模态对齐损失(modality alignment loss):
\[I^{\text{mod}}(\phi; x_n, s_n) = \alpha \mathbb{E}_{q_\phi(\tilde{z} | x_n, s_n)} [v(\tilde{z})]\]其中 \(\tilde{z} = \{z^m\}_{m \in \mathcal{M}_n}\) 是各单模态后验的集合, \(v(\tilde{z}) = \sum_{m \in \mathcal{M}_n} \|\|z^m - \bar{z}\|\|_2^2\) 测量各模态潜在变量的离散度,$\bar{z}$ 为均值。MIDAS 通过最小化该损失,使各模态的后验分布聚集,实现模态对齐。
⚪ 信息论潜在解耦
为分离生物状态和技术噪声,MIDAS 采用信息瓶颈(Information Bottleneck, IB)方法,定义两种 IB:
- 技术 IB:最小化批次 ID $s$ 与生物状态 $c$ 的互信息 $I(s, c)$,防止批次信息混入生物状态;
- 生物 IB:最小化数据 $x$ 与技术噪声 $u$ 的互信息 $I(x, u)$,防止生物信息混入技术噪声。
这通过最大化以下 ELBO(Evidence Lower Bound)实现,其中包含分类器损失和 KL 散度项:
\[\mathcal{L} = \mathbb{E}_{q_\phi(c,u|x,s)} [\gamma \log p_\theta(s|u) + \sum_{m \in \mathcal{M}_n} \log p_\theta(x^m|c,u)] - \text{KL}[q_\phi(c,u|x,s) \| p(c,u)]\]以及 IB 损失:
\[\hat{I}^{\text{IB}} = \beta^s \mathbb{E}_{q_\phi(c|x,s)} [\log p_{\hat{\eta}}(s|c)] + \beta^x \text{KL}[q_\phi(u|x,s) \| p(u)] - \beta^s \mathbb{E}_{q_\phi(u|x,s)} [\log p_{\hat{\eta}}(s|u)]\]其中 $\beta^s$ 和 $\beta^x$ 为权重超参数,$\gamma$ 鼓励 $u$ 编码更多批次信息。
⚪ 缺失特征处理与批次校正
对于不同细胞具有不同特征集的情况,MIDAS 通过零填充(zero-padding)和掩码(masking)处理可变长度输入。对于模态 $m$,设 $\mathcal{F}^m$ 为所有批次的特征并集,缺失特征通过函数 $h$ 填充为零。
批次校正通过潜在变量操作实现:计算各批次 $b$ 的技术噪声均值 \(\bar{u}_b\) ,找到最接近整体均值 \(\bar{u}\) 的批次 \(b^*\) 作为标准技术噪声,通过替换 $u_n$ 为 \(\bar{u}_{b^*}\) 并输入解码器,生成批次校正后的数据。
⚪ 知识转移策略
MIDAS 提供两种知识转移策略:
- 模型转移(Model Transfer):通过迁移学习(transfer learning),在参考数据集上预训练后,在查询数据集上微调,仅重新参数化批次相关的编码器/解码器,冻结模态编码器/解码器参数。
- 标签转移(Label Transfer):通过互参考映射(reciprocal reference mapping),将参考数据和查询数据相互映射到潜在空间,使用 k 近邻(kNN)分类器传递标签。对于跨组织映射,采用高斯混合模型(Gaussian Mixture Model)阈值法检测查询数据集中存在的未知细胞类型。

3. 实验分析
3.1 三模态矩形整合性能评估
作者在三模态完整数据(dogma-full 和 teadog-full 数据集)上评估 MIDAS,并与 BBKNN+average、Harmony+WNN、LIGER+WNN、MOFA+、PCA+WNN、Scanorama-embed+WNN、Scanorama-feat+WNN、Seurat-CCA+WNN、Seurat-RPCA+WNN 等 9 种策略比较。
- Figure a:UMAP 可视化显示,MIDAS 的潜在生物状态在不同批次间对齐良好,细胞类型(B cells、CD4+ T、CD8+ T、单核细胞(Mono)、DC、NK cells)聚类清晰,且与批次无关;而其他方法如 MOFA+、PCA+WNN 存在批次混合不充分或细胞类型分离不清的问题。
- Figure b:MIDAS 推断的技术噪声按批次分组,与细胞类型几乎无关,证实生物信号与技术变异被有效解耦。
- Figure c:scIB(single-cell Integration Benchmarking)量化评估显示,MIDAS 在 dogma-full 和 teadog-full 数据集上的批次校正(kBET、图 iLISI)、生物保守性(NMI、ARI、图 cLISI)和总体得分均显著优于其他方法。
- Figure d:批次校正后数据与原始数据的基因/蛋白质倍数变化(fold changes)和染色质可及性高度相关(Pearson’s r > 0.98),表明 MIDAS 在去除批次效应的同时保留了生物学信号。
- Figure e:基于 MIDAS 嵌入的人工注释识别出 13 种 PBMC 类型,包括 B cells、T cells、DCs、NK cells、单核细胞、双阳性 T 细胞(double-positive CD4+CD8+ T cells)和非常规 T 细胞(unconventional T cells)。
- Figure f:B cells 中 RNA 和 ADT 水平的不一致性分析显示,MS4A1(编码 CD20)在 RNA 水平特异表达,而 CD20 蛋白检测罕见,证实多模态的不可替代性。
- Figure g:B 细胞亚群(B0-B3)分析显示,ADT 可补充 RNA 聚类,在 B2 和 B3 亚群中意外发现 T 细胞标记(CD3 和 CD4)的共表达,这一现象在仅使用 RNA 时无法复现。
- Figure h:CD4+ 初始 T 细胞(Cluster 0)被分为两个亚群 C0-0 和 C0-1。
- Figure i:模态贡献分析显示,ATAC 模态在 C0-1 亚群聚类中的贡献显著(权重 0.571)高于 RNA(0.211)和 ADT(0.218)。
- Figure j:进一步分析 C0-0 和 C0-1 的整合聚类,证实 ATAC 贡献了关键的染色质可及性信息,定义了低染色质可及性(LCA)的 CD4+ 初始 T 细胞亚群。

3.2 马赛克整合任务评估
作者构建了 14 个马赛克数据集(如 paired-abc、paired-ab、diagonal 等),评估 MIDAS 在缺失模态情况下的整合能力,并与 scVAEIT、scMoMaT、StabMap、Multigrate 比较。
- Figure a:在 dogma-paired-abc 数据集上,MIDAS 推断的生物状态在各模态(ATAC、RNA、ADT)间分布一致,跨批次对齐良好,细胞类型轮廓清晰。
- Figure b:技术噪声在 Joint(整合)视图中按批次清晰分组,证实批次效应被有效隔离。
- Figure c:scMIB(single-cell Mosaic Integration Benchmarking,作者提出的扩展基准)显示,MIDAS 在 paired+full、paired-abc、paired-ab 等任务上的批次校正、模态对齐和总体得分与矩形整合(dogma-full)相当,仅在 diagonal 任务(各模态无细胞对应关系)上表现中等,但可通过知识转移改善。
- Figure d:在 dogma-diagonal+full 任务中,MIDAS 的 UMAP 显示批次混合良好且细胞类型分离清晰;而 scMoMaT、scVAEIT、StabMap 和 Multigrate 均出现批次混合不充分或细胞类型混杂。
- Figure e:scIB 总体得分显示,MIDAS 在所有马赛克任务中均优于其他四种方法,尤其在 paired 类型任务中得分接近 dogma-full 水平。
- Figure f:与 dogma-full 任务的最近邻重叠分析显示,除 dogma-diagonal 外,各马赛克任务的细胞邻域重叠度随邻居数增加超过 0.75,表明整合结果高度一致。
- Figure g:基因调控网络(GRN)分析显示,dogma-paired-abc 任务中推断的 RNA 数据与 dogma-full 原始数据的调控链接高度一致。
- Figure h:马赛克任务与 dogma-full 的细胞标签一致性(Micro F1 分数)显示,除 diagonal 外,各任务 F1 分数均超过 0.885,证实 MIDAS 在马赛克整合中的可靠性。

3.3 图谱级马赛克整合与知识转移
作者整合了来自 7 种技术平台(包括 DOGMA-seq、TEA-seq、ASAP-seq、CITE-seq、10x Multiome)的 27 个批次、185,518 个细胞,构建 PBMC 三模态图谱。
- Figure a:MIDAS 成功整合了 DOGMA(4 批次)、TEA(5 批次)、TEA Multiome(2 批次)、10x Multiome(4 批次)、ASAP(2 批次)、ASAP CITE(2 批次)和 WNN CITE(8 批次)的数据,生物状态保持一致 PBMC 群体结构。
- Figure b:MIDAS 注释的细胞类型标签与 Seurat 标记高度一致,但作者发现 CD8 蛋白水平在 MIDAS 标记的 CD8+ 细胞中表达更均一,显示更好的生物学合理性。
- Figure c:比较 MIDAS 和 Seurat 标记的 CD8 蛋白水平,MIDAS 标记的细胞中 CD8 蛋白水平更高且均一。
- Figure d:整合更多数据集后,MIDAS 在 dogma 数据集中识别出与图谱中血小板(Platelet)聚集的稀有细胞群,提示可能存在血小板污染或新的细胞状态。
- Figure e:图谱中单核细胞被细分为 CD14+、CD16+ 和 CD3+CD14+ 等亚群,分辨率高于矩形整合。
- Figure f:图谱中鉴定出大量低染色质可及性(LCA)细胞(可及性水平 < 0.02),这种双峰分布在 CD8+ T 细胞、CD14+ 单核细胞、NK cells、B cells 等多种细胞类型中均存在。

3.4 知识转移性能
作者将 PBMC 图谱(去除 dogma 数据)作为参考(atlas-no_dogma),dogma 数据作为查询,评估知识转移。
- Figure a:在 dogma-diagonal 任务中,从头训练(de novo trained)的 MIDAS 因缺乏跨模态细胞对应关系而整合失败,生物状态在潜在空间中分散。
- Figure b:采用迁移学习(transfer learning)后,MIDAS 成功对齐了跨批次和模态的生物状态,形成与细胞类型一致的聚类,显著改善了 diagonal 任务的整合效果。
- Figure c:在 14 个 dogma 马赛克整合任务中,迁移学习策略在 diagonal、atac、rna、adt 等单模态查询任务上显著提升了 scIB 和 scMIB 总体得分,在其他任务上保持与从头训练相当的性能。
- Figure d:互参考映射(reciprocal reference mapping)结果显示,不同查询数据集映射后的生物状态与 dogma-full 图谱高度一致,优于单向的查询到参考(query-to-reference)或参考到查询(reference-to-query)映射。
- Figure e:标签转移的 Micro F1 分数显示,互参考映射策略在各种查询数据形式上均优于其他两种策略,实现了稳健准确的标签转移。

3.5 骨骨髓单核细胞(BMMC)应用
作者将 MIDAS 应用于由 ICA(scRNA-seq)、ASAP(ASAP-seq)和 CITE(CITE-seq)三个批次组成的 BMMC 马赛克数据集。
- Figure a:MIDAS 整合后的 BMMC UMAP 显示,B cells、CD4+ T、CD8+ T、DC、单核细胞(Mono)、NK cells、造血干/祖细胞(HSC、GMP、LMPP)等细胞类型分离清晰,轨迹连续。
- Figure b:基于 32 维生物状态潜在变量的髓系细胞(myeloid)伪时间分析显示,HSCs(标记 CD34、SPINK2)主要分化为两个分支:一支向巨核细胞-红细胞前体(Prog Mk、Prog RBC,标记 GYPA、AHSP)分化,另一支通过淋巴样多能祖细胞(LMPP)向粒细胞-巨噬细胞祖细胞(GMP)分化,最终成为单核细胞和 DCs(标记 TYROBP、CTSS),这与已知的骨髓髓系发育通路一致。
- Figure c:插补后的关键细胞类型标记基因(CD34、SPINK2、AHSP、GYPA、TYROBP、CTSS)表达 UMAP 支持上述分化轨迹。
- Figure d:潜在维度 C23 沿伪时间的 Loess 平滑曲线显示,C23 值随分化进程逐渐增加。
- Figure e:各细胞类型的 C23 值箱线图显示,HSCs、LMPP、GMP 等早期细胞 C23 值较低,而红细胞前体(Prog RBC)和巨核细胞前体(Prog Mk)C23 值最高。
- Figure f:与 C23 正相关的基因包括红细胞相关基因(AHSP、HBB、GYPA),负相关基因包括 HSC 标记(SPINK2、CD34、GATA2)的热图。
- Figure g:Gene Ontology(GO)富集分析显示,C23 正相关基因显著富集于红细胞分化(Erythrocyte differentiation)、气体运输(Gas transport)、血红素生物合成过程(Heme biosynthetic process)等通路。
- Figure h:跨组织知识转移(PBMC 图谱作为参考,BMMC 作为查询)的双向参考映射 UMAP 显示,MIDAS 成功将 PBMC 图谱的标签转移到 BMMC 细胞(左图),与 BMMC 的原始注释(右图)高度一致,并准确识别出 BMMC 中特有的祖细胞(Progenitor)类型。
- Figure i:混淆图(Confusion plot)显示,B cells、CD4+ 记忆 T、CD8+ 记忆 T、单核细胞等细胞类型的标签转移一致性高(>0.75),其中祖细胞被正确标记为未知(Unknown),避免了错误注释。
