使用MIDAS进行单细胞多模态数据的马赛克整合与知识迁移.

0. TL; DR

MIDASMosaic Integration and Knowledge Transfer)是一种深度概率框架,通过自监督模态对齐和信息论潜在解耦,同时实现马赛克数据的降维、插补和批次校正。MIDAS 假设每个细胞的观测计数由两个与模态无关的潜在变量生成:生物状态 $c$ 和技术噪声 $u$,并利用专家乘积实现可扩展的变分推断。

作者在多种三模态和马赛克整合任务中验证了 MIDAS 的优越性,并构建了包含 DOGMA-seqTEA-seq 数据的人外周血单核细胞(PBMC)单细胞三模态图谱。通过定制化的迁移学习和互参考映射方案,MIDAS 实现了从图谱到新数据的知识转移,在骨髓单核细胞(BMMC)马赛克数据集上展示了其在马赛克整合、伪时间分析和跨组织知识转移中的多功能性。

1. 背景介绍

近年来,单细胞多组学测序技术(scMulti-omics)的革命性发展使研究者能够在单细胞分辨率下同时测量多种分子模态,包括基因表达(RNA)、蛋白质丰度(通过 ADTantibody-derived tags)和染色质可及性(ATAC)。例如,DOGMA-seqTEA-seqCITE-seqASAP-seq 等技术不仅能在多个分子层面揭示细胞异质性,实现更精细的细胞特征识别,还能揭示跨组学的调控联系。

然而,随着数据规模的快速增长,如何整合来自不同来源的大规模高维数据成为迫切需求。由于不同研究采用的测序技术多样,产生的数据集往往包含异质的组学组合,某些数据集可能缺少一个或多个模态,形成了马赛克数据(mosaic data)。这种数据的整合面临三大挑战:

  1. 模态异质性:不同模态具有不同的统计特性和噪声水平;
  2. 批次效应:不同实验批次、技术平台或供体(donors)引入的技术变异(technical variation)需要与生物信号分离;
  3. 缺失模态处理:需要在存在缺失模态的情况下进行准确插补和对齐。

现有的多模态整合方法大多针对完整模态的双模态或三模态数据设计,如 MOFA+GLUEtotalVI 等。近期虽有 scVAEITscMoMaTStabMapMultigrate 等方法尝试处理马赛克整合,但这些方法在模态对齐、批次校正和下游分析支持方面仍存在局限。

为解决这些问题,作者开发了 MIDAS,其核心思想是将每个细胞的观测建模为由生物状态(体现细胞异质性)和技术噪声(体现实验引入的不必要变异)生成的过程。通过深度生成模型,MIDAS 能够在统一框架下实现降维、模态插补和批次校正。

2. 方法介绍

MIDAS 是一个基于变分自编码器(Variational Autoencoder, VAE)的深度生成模型,专为包含 ATACRNAADT 测量的不完整单细胞多模态数据设计。对于第 $n$ 个细胞,设 $s_n$ 为批次 ID,$x_n^m$ 为模态 $m$ 的计数向量,其中 $m \in \mathcal{M}_n \subseteq {\text{ATAC}, \text{RNA}, \text{ADT}}$。MIDAS 假设观测变量由两个模态无关的潜在变量生成:

联合分布分解为: \(p(x, s, c, u) = p(c)p(u)p(s|u)\prod_{m \in \mathcal{M}_n} p(x^m|c, u)\)

其中 $p(c)$ 和 $p(u)$ 设为各向同性高斯分布,$p(s|u)$ 为分类分布,由神经网络参数化。

⚪ 可扩展变分推断与专家乘积

由于马赛克数据中模态组合多种多样(共 $2^M-1$ 种可能),直接为每种组合构建编码器不可扩展。MIDAS 采用专家乘积(Product of Experts, PoE)来模块化地构建变分后验 $q_\phi(c, u | x_n, s_n)$。

将后验分解为:

\[q_\phi(z | x_n, s_n) \propto p(z) \tilde{q}_\phi(z | s_n) \prod_{m \in \mathcal{M}_n} \tilde{q}_\phi(z | x_n^m)\]

其中 $z = {c, u}$,$\tilde{q}_\phi(z | \cdot)$ 是各专家(批次 ID 或单模态)的归一化近似后验,均为对角高斯分布 $\mathcal{N}(\mu, \text{diag}(\nu))$。

通过 PoE,总后验的均值 $\mu_n$ 和方差 $\nu_n$ 可由各专家的均值 $\mu_n^m$ 和方差 $\nu_n^m$ 解析计算:

\[\mu_n = \left(\frac{\mu_n^s}{\nu_n^s} + \sum_{m \in \mathcal{M}_n} \frac{\mu_n^m}{\nu_n^m}\right) \odot \nu_n \\ \nu_n = \left(1 + \frac{1}{\nu_n^s} + \sum_{m \in \mathcal{M}_n} \frac{1}{\nu_n^m}\right)^{-1}\]

其中 $\odot$ 表示 Hadamard 积。这种设计将模型模块化,仅需 $M+1$ 个神经网络即可处理所有模态组合。

⚪ 自监督模态对齐

为实现跨模态推断,MIDAS 通过自监督学习在潜在空间对齐不同模态。通过为每个细胞构建单模态观测 ${x_n^m, s_n}_{m \in \mathcal{M}_n}$,并定义模态对齐损失(modality alignment loss):

\[I^{\text{mod}}(\phi; x_n, s_n) = \alpha \mathbb{E}_{q_\phi(\tilde{z} | x_n, s_n)} [v(\tilde{z})]\]

其中 \(\tilde{z} = \{z^m\}_{m \in \mathcal{M}_n}\) 是各单模态后验的集合, \(v(\tilde{z}) = \sum_{m \in \mathcal{M}_n} \|\|z^m - \bar{z}\|\|_2^2\) 测量各模态潜在变量的离散度,$\bar{z}$ 为均值。MIDAS 通过最小化该损失,使各模态的后验分布聚集,实现模态对齐。

⚪ 信息论潜在解耦

为分离生物状态和技术噪声,MIDAS 采用信息瓶颈(Information Bottleneck, IB)方法,定义两种 IB

这通过最大化以下 ELBOEvidence Lower Bound)实现,其中包含分类器损失和 KL 散度项:

\[\mathcal{L} = \mathbb{E}_{q_\phi(c,u|x,s)} [\gamma \log p_\theta(s|u) + \sum_{m \in \mathcal{M}_n} \log p_\theta(x^m|c,u)] - \text{KL}[q_\phi(c,u|x,s) \| p(c,u)]\]

以及 IB 损失:

\[\hat{I}^{\text{IB}} = \beta^s \mathbb{E}_{q_\phi(c|x,s)} [\log p_{\hat{\eta}}(s|c)] + \beta^x \text{KL}[q_\phi(u|x,s) \| p(u)] - \beta^s \mathbb{E}_{q_\phi(u|x,s)} [\log p_{\hat{\eta}}(s|u)]\]

其中 $\beta^s$ 和 $\beta^x$ 为权重超参数,$\gamma$ 鼓励 $u$ 编码更多批次信息。

⚪ 缺失特征处理与批次校正

对于不同细胞具有不同特征集的情况,MIDAS 通过零填充(zero-padding)和掩码(masking)处理可变长度输入。对于模态 $m$,设 $\mathcal{F}^m$ 为所有批次的特征并集,缺失特征通过函数 $h$ 填充为零。

批次校正通过潜在变量操作实现:计算各批次 $b$ 的技术噪声均值 \(\bar{u}_b\) ,找到最接近整体均值 \(\bar{u}\) 的批次 \(b^*\) 作为标准技术噪声,通过替换 $u_n$ 为 \(\bar{u}_{b^*}\) 并输入解码器,生成批次校正后的数据。

⚪ 知识转移策略

MIDAS 提供两种知识转移策略:

  1. 模型转移(Model Transfer):通过迁移学习(transfer learning),在参考数据集上预训练后,在查询数据集上微调,仅重新参数化批次相关的编码器/解码器,冻结模态编码器/解码器参数。
  2. 标签转移(Label Transfer):通过互参考映射(reciprocal reference mapping),将参考数据和查询数据相互映射到潜在空间,使用 k 近邻(kNN)分类器传递标签。对于跨组织映射,采用高斯混合模型(Gaussian Mixture Model)阈值法检测查询数据集中存在的未知细胞类型。

3. 实验分析

3.1 三模态矩形整合性能评估

作者在三模态完整数据(dogma-fullteadog-full 数据集)上评估 MIDAS,并与 BBKNN+averageHarmony+WNNLIGER+WNNMOFA+PCA+WNNScanorama-embed+WNNScanorama-feat+WNNSeurat-CCA+WNNSeurat-RPCA+WNN 等 9 种策略比较。

3.2 马赛克整合任务评估

作者构建了 14 个马赛克数据集(如 paired-abcpaired-abdiagonal 等),评估 MIDAS 在缺失模态情况下的整合能力,并与 scVAEITscMoMaTStabMapMultigrate 比较。

3.3 图谱级马赛克整合与知识转移

作者整合了来自 7 种技术平台(包括 DOGMA-seqTEA-seqASAP-seqCITE-seq10x Multiome)的 27 个批次、185,518 个细胞,构建 PBMC 三模态图谱。

3.4 知识转移性能

作者将 PBMC 图谱(去除 dogma 数据)作为参考(atlas-no_dogma),dogma 数据作为查询,评估知识转移。

3.5 骨骨髓单核细胞(BMMC)应用

作者将 MIDAS 应用于由 ICAscRNA-seq)、ASAPASAP-seq)和 CITECITE-seq)三个批次组成的 BMMC 马赛克数据集。