单细胞空间多模态数据的对比生成式自表达模型.

0. TL; DR

scMSIsingle-cell multimodal self-expressive integration 是一种对比式深度生成自表达模型,通过深度变分自编码器学习各组学特异性的潜在表示,利用自表达网络(self-expressive network)捕获细胞间相似性关系,并通过对比学习融合不同模态的自表达系数,将异质数据映射到统一的流形空间。

在单细胞多组学(转录组、蛋白质组、染色质可及性)和空间多模态(空间转录组与组织学图像)数据上的实验表明,scMSI 在细胞类型识别、批次校正、数据去噪和空间域检测等任务上均展现出优越性、稳健性和可扩展性。

1. 背景介绍

近年来,单细胞测序技术的飞速发展催生了多种单细胞多组学(single-cell multi-omics)技术,能够在同一细胞中同时测量多种分子层次的信息,包括基因组、转录组、表观遗传修饰乃至细胞成像。例如,CITE-seq 技术可同时量化 mRNA 表达与表面蛋白丰度;sci-CARPaired-seqSNARE-seq 则可联合分析基因表达与染色质可及性。这些多模态数据为识别细胞状态、细胞类型以及深入理解细胞系统提供了重要视角。

然而,单细胞多模态数据集的整合分析面临诸多独特挑战:

  1. 技术噪声与稀疏性:不同组学数据具有各自的噪声水平和统计特性;
  2. 异质性:不同分子读数需要不同的建模假设,如 RNA count 数据通常适合负二项分布(negative binomial),而蛋白质数据可能包含背景噪声;
  3. 特征不平衡:不同模态的维度差异巨大;
  4. 批次效应:复杂实验设计常引入多重技术和生物学异质性。

现有计算方法主要包括:

自表达模型self-expression model)作为子空间聚类的有效方法,在癌症分型中得到应用。其核心思想是将每个数据点表示为其他数据点的线性组合,但传统方法面临计算复杂度随样本量平方增长的瓶颈,且缺乏对样本外数据(out-of-sample data)的泛化能力,难以处理大规模单细胞数据。

针对上述问题,作者提出 scMSI 框架,通过以下创新解决挑战:采用深度自表达生成模型学习各组学特异性的潜变量和自表达关系;利用对比学习融合不同模态的自表达系数,建立一致的样本亲和矩阵;引入支持样本外数据推断和缺失模态处理。

2. scMSI 方法

scMSI 是一个深度变分自编码器框架,集成对比式自表达层(contrastive self-expressive layer),用于整合多组学数据。以 CITE-seq 数据为例,设 $X^{\mathbb{R}} \in \mathbb{R}^{p_R \times N}$ 和 $X^{\mathbb{P}} \in \mathbb{R}^{p_P \times N}$ 分别表示 RNA 和蛋白质的 UMI count 矩阵,其中 $p_R$ 和 $p_P$ 分别为基因和蛋白质数量,$N$ 为细胞数。可选的批次信息(batch)记为 $s$。

scMSI 包含三个核心模块:

  1. 编码器:学习各组学特异性的低维潜变量表示;
  2. 自表达组件:学习细胞-细胞自表达矩阵,通过自表达系数重构潜变量;
  3. 解码器:基于重构的潜变量估计观测数据的条件分布参数,显式考虑测序深度、蛋白质背景噪声和批次效应等因素。

⚪ 编码器

对于第 $m$ 个组学层(模态),编码器接收输入 $x_n^m$ 和批次注释 $s$(可选),将其映射到潜变量 $z_n^m$ 的变分分布 $q(z_n^m | x_n^m, s)$,用于近似真实后验分布 $p(z_n^m | x_n^m, s)$。潜变量先验采用标准多元正态分布:

\[z_n^m \sim \mathcal{N}(0, I)\]

潜变量维度在所有实验中设置为 10 维。该先验起到正则化后验分布的作用,改善模型训练和泛化能力。

⚪ 自表达层

自表达模型假设数据矩阵 $Z = [z_1, \dots, z_N]$ 的列位于低维线性子空间的并集中。传统自表达优化问题为:

\[\min_{\{c_{n,i}\}_{i \neq n}} \frac{\gamma}{2} \left\| z_n - \sum_{i \neq n} c_{n,i} z_i \right\|_2^2 + \sum_{i \neq n} \text{reg}(c_{n,i})\]

其中 $c_{n,i}$ 为细胞 $n$ 与 $i$ 间的自表达系数,$\text{reg}(\cdot)$ 为正则化函数,$\gamma > 0$ 为平衡参数。

scMSI 使用神经网络参数化自表达系数,将上式转化为:

\[\min_{\theta_s} \left\| z_n - \sum_{i \neq n} f_s(z_n, z_i; \theta_s) z_i \right\|_2^2 + \gamma \sum_{i \neq n} \text{reg}(f_s(z_n, z_i; \theta_s))\]

其中 $f_s(\cdot; \theta_s): \mathbb{R}^D \times \mathbb{R}^D \to \mathbb{R}$ 为参数化函数,$\theta_s$ 为网络参数。重构的潜变量表示为:

\[\hat{z}_n = \sum_{i \neq n} f_s(z_n, z_i; \theta_s) z_i\]

正则化采用 Elastic Net 形式:

\[\text{reg}(\cdot) = \lambda_{\text{reg}} |\cdot| + \frac{1 - \lambda_{\text{reg}}}{2} (\cdot)^2\]

实验中设置 $\gamma = 1$,$\lambda_{\text{reg}} = 0.9$。

为处理大规模单细胞数据,作者采用锚点学习策略anchor learning strategy)。通过对基因表达数据进行 PCA 降维后使用 K-means 聚类,选择距离各簇中心最近的样本作为锚点(anchor),记锚点索引集为 $\mathbb{A}$。此时自表达优化变为:

\[\min_{\theta_s} \left\| z_n - \sum_{i \in \mathbb{A}} f_s(z_n, z_i; \theta_s) z_i \right\|_2^2 + \gamma \sum_{i \in \mathbb{A}} \text{reg}(f_s(z_n, z_i; \theta_s))\]

对于第 $m$ 个模态,整个数据集的自表达模块损失为:

\[\mathcal{L}_{\text{SE}}^m = \frac{1}{N} \sum_{n=1}^N \left( \left\| z_n^m - \sum_{i \in \mathbb{A}} f_s^m(z_n^m, z_i^m; \theta_s^m) z_i^m \right\|_2^2 + \gamma \sum_{i \in \mathbb{A}} \text{reg}(f_s^m(z_n^m, z_i^m; \theta_s^m)) \right)\]

scMSI 假设不同模态的潜变量是不同的。通过在不同组学数据中使用共同的锚点样本,作者采用对比学习连接不同模态的自表达系数。对比损失函数定义为:

\[\mathcal{L}_{\text{contrast}} = \frac{1}{N} \sum_{m=2}^M \sum_{n=1}^N \sum_{i \in \mathbb{A}} \left| f_s^m(z_n^m, z_i^m; \theta_s^m) - f_s^1(z_n^1, z_i^1; \theta_s^1) \right|^2\]

该损失确保不同模态学习到的样本亲和关系(自表达系数)保持一致,从而实现信息融合。

⚪ 解码器

解码器接收来自自表达模块的重构潜变量 $\hat{z}_n^m$ 和批次注释 $s$,输出第 $m$ 个组学观测数据的条件分布参数 $p(x^m | \hat{z}^m, s)$。条件分布的选择基于数据的模态特性,如 RNA 数据使用负二项分布(Negative Binomial, NB),蛋白质数据使用负二项混合分布(Negative Binomial Mixture, NBM)以建模前景信号和背景噪声。

模型通过最大化证据下界(Evidence Lower Bound, ELBO)进行训练:

\[\log p(x^m | s) \geq \mathbb{E}_{q(z^m | x^m, s)}(\log p(x^m | z^m, s)) - \text{KL}(q(z^m | x^m, s) \| p(z^m))\]

对应的 ELBO 损失为:

\[\mathcal{L}_{\text{ELBO}}^m = -\mathbb{E}_{q(z^m | x^m, s)}(\log p(x^m | z^m, s)) + \text{KL}(q(z^m | x^m, s) \| p(z^m))\]

其中第一项为重构损失(reconstruction loss),第二项为 KL 散度正则项。

⚪ 总体优化目标

scMSI 的总体损失函数为三部分的加权和:

\[\min_{\theta_e, \theta_d, \theta_s} \sum_{m=1}^M \mathcal{L}_{\text{ELBO}}^m + \lambda_1 \sum_{m=1}^M \mathcal{L}_{\text{SE}}^m + \lambda_2 \mathcal{L}_{\text{contrast}}\]

其中 $\theta_e$、$\theta_d$、$\theta_s$ 分别代表编码器、解码器和自表达组件的神经网络参数;$\lambda_1$ 和 $\lambda_2$ 为权衡超参数,用于平衡重构、自表达学习和跨模态一致性。

3. 实验分析

3.1 基准数据集性能评估

作者首先在多种单细胞多组学数据集上评估 scMSI 性能,并与 SeuratMOFA2TotalVIMultiVIscMVPscMMPortalBREM-SCLinQ-View 等方法对比。

细胞系数据集 (图A)

PBMC 数据集 (图B)

可视化对比(图C,D)

3.2 多模态信息融合与细胞亚型识别(CBMC 数据集)

3.3 肺癌免疫景观异质性分析(NSCLC 数据集)

作者应用 scMSI 分析非小细胞肺癌(NSCLC)数据,包含肺腺癌(LUAD)和肺鳞癌(LUSC),共 176,312 个细胞,探索两种癌症类型间的免疫细胞组成差异。

3.3.1 细胞类型识别与分布

3.3.2 树突状细胞(DC)亚群分析

3.4 空间转录组学应用

为验证 scMSI 的可扩展性,作者将其应用于空间分辨率转录组(SRT)数据,整合空间基因表达与组织学图像。

3.4.1 小鼠大脑空间域检测

3.4.2 乳腺癌组织分析