单细胞空间多模态数据的对比生成式自表达模型.
0. TL; DR
scMSI(single-cell multimodal self-expressive integration 是一种对比式深度生成自表达模型,通过深度变分自编码器学习各组学特异性的潜在表示,利用自表达网络(self-expressive network)捕获细胞间相似性关系,并通过对比学习融合不同模态的自表达系数,将异质数据映射到统一的流形空间。
在单细胞多组学(转录组、蛋白质组、染色质可及性)和空间多模态(空间转录组与组织学图像)数据上的实验表明,scMSI 在细胞类型识别、批次校正、数据去噪和空间域检测等任务上均展现出优越性、稳健性和可扩展性。
1. 背景介绍
近年来,单细胞测序技术的飞速发展催生了多种单细胞多组学(single-cell multi-omics)技术,能够在同一细胞中同时测量多种分子层次的信息,包括基因组、转录组、表观遗传修饰乃至细胞成像。例如,CITE-seq 技术可同时量化 mRNA 表达与表面蛋白丰度;sci-CAR、Paired-seq 和 SNARE-seq 则可联合分析基因表达与染色质可及性。这些多模态数据为识别细胞状态、细胞类型以及深入理解细胞系统提供了重要视角。
然而,单细胞多模态数据集的整合分析面临诸多独特挑战:
- 技术噪声与稀疏性:不同组学数据具有各自的噪声水平和统计特性;
- 异质性:不同分子读数需要不同的建模假设,如 RNA count 数据通常适合负二项分布(negative binomial),而蛋白质数据可能包含背景噪声;
- 特征不平衡:不同模态的维度差异巨大;
- 批次效应:复杂实验设计常引入多重技术和生物学异质性。
现有计算方法主要包括:
- 共同潜空间方法(如 scAI、MOFA2):假设所有模态共享相同的低维潜变量,这可能过于严格,忽略了不同组学数据的内在异质性;
- 图融合方法(如 Weighted nearest neighbor、LinQ-View):通过计算细胞间相似性图进行整合,但可能丢失原始特征空间的信息,可解释性较差;
- 概率模型方法(如 BREM-SC):可量化聚类不确定性,但计算速度慢,难以扩展至大规模数据集;
- 深度生成模型(如 TotalVI、MultiVI、scMVP、scMM、Portal):虽能推断联合嵌入,但通常假设各模态共享相同的潜变量空间,忽略了数据异质性。
自表达模型(self-expression model)作为子空间聚类的有效方法,在癌症分型中得到应用。其核心思想是将每个数据点表示为其他数据点的线性组合,但传统方法面临计算复杂度随样本量平方增长的瓶颈,且缺乏对样本外数据(out-of-sample data)的泛化能力,难以处理大规模单细胞数据。
针对上述问题,作者提出 scMSI 框架,通过以下创新解决挑战:采用深度自表达生成模型学习各组学特异性的潜变量和自表达关系;利用对比学习融合不同模态的自表达系数,建立一致的样本亲和矩阵;引入支持样本外数据推断和缺失模态处理。
2. scMSI 方法
scMSI 是一个深度变分自编码器框架,集成对比式自表达层(contrastive self-expressive layer),用于整合多组学数据。以 CITE-seq 数据为例,设 $X^{\mathbb{R}} \in \mathbb{R}^{p_R \times N}$ 和 $X^{\mathbb{P}} \in \mathbb{R}^{p_P \times N}$ 分别表示 RNA 和蛋白质的 UMI count 矩阵,其中 $p_R$ 和 $p_P$ 分别为基因和蛋白质数量,$N$ 为细胞数。可选的批次信息(batch)记为 $s$。
scMSI 包含三个核心模块:
- 编码器:学习各组学特异性的低维潜变量表示;
- 自表达组件:学习细胞-细胞自表达矩阵,通过自表达系数重构潜变量;
- 解码器:基于重构的潜变量估计观测数据的条件分布参数,显式考虑测序深度、蛋白质背景噪声和批次效应等因素。

⚪ 编码器
对于第 $m$ 个组学层(模态),编码器接收输入 $x_n^m$ 和批次注释 $s$(可选),将其映射到潜变量 $z_n^m$ 的变分分布 $q(z_n^m | x_n^m, s)$,用于近似真实后验分布 $p(z_n^m | x_n^m, s)$。潜变量先验采用标准多元正态分布:
\[z_n^m \sim \mathcal{N}(0, I)\]潜变量维度在所有实验中设置为 10 维。该先验起到正则化后验分布的作用,改善模型训练和泛化能力。
⚪ 自表达层
自表达模型假设数据矩阵 $Z = [z_1, \dots, z_N]$ 的列位于低维线性子空间的并集中。传统自表达优化问题为:
\[\min_{\{c_{n,i}\}_{i \neq n}} \frac{\gamma}{2} \left\| z_n - \sum_{i \neq n} c_{n,i} z_i \right\|_2^2 + \sum_{i \neq n} \text{reg}(c_{n,i})\]其中 $c_{n,i}$ 为细胞 $n$ 与 $i$ 间的自表达系数,$\text{reg}(\cdot)$ 为正则化函数,$\gamma > 0$ 为平衡参数。
scMSI 使用神经网络参数化自表达系数,将上式转化为:
\[\min_{\theta_s} \left\| z_n - \sum_{i \neq n} f_s(z_n, z_i; \theta_s) z_i \right\|_2^2 + \gamma \sum_{i \neq n} \text{reg}(f_s(z_n, z_i; \theta_s))\]其中 $f_s(\cdot; \theta_s): \mathbb{R}^D \times \mathbb{R}^D \to \mathbb{R}$ 为参数化函数,$\theta_s$ 为网络参数。重构的潜变量表示为:
\[\hat{z}_n = \sum_{i \neq n} f_s(z_n, z_i; \theta_s) z_i\]正则化采用 Elastic Net 形式:
\[\text{reg}(\cdot) = \lambda_{\text{reg}} |\cdot| + \frac{1 - \lambda_{\text{reg}}}{2} (\cdot)^2\]实验中设置 $\gamma = 1$,$\lambda_{\text{reg}} = 0.9$。
为处理大规模单细胞数据,作者采用锚点学习策略(anchor learning strategy)。通过对基因表达数据进行 PCA 降维后使用 K-means 聚类,选择距离各簇中心最近的样本作为锚点(anchor),记锚点索引集为 $\mathbb{A}$。此时自表达优化变为:
\[\min_{\theta_s} \left\| z_n - \sum_{i \in \mathbb{A}} f_s(z_n, z_i; \theta_s) z_i \right\|_2^2 + \gamma \sum_{i \in \mathbb{A}} \text{reg}(f_s(z_n, z_i; \theta_s))\]对于第 $m$ 个模态,整个数据集的自表达模块损失为:
\[\mathcal{L}_{\text{SE}}^m = \frac{1}{N} \sum_{n=1}^N \left( \left\| z_n^m - \sum_{i \in \mathbb{A}} f_s^m(z_n^m, z_i^m; \theta_s^m) z_i^m \right\|_2^2 + \gamma \sum_{i \in \mathbb{A}} \text{reg}(f_s^m(z_n^m, z_i^m; \theta_s^m)) \right)\]scMSI 假设不同模态的潜变量是不同的。通过在不同组学数据中使用共同的锚点样本,作者采用对比学习连接不同模态的自表达系数。对比损失函数定义为:
\[\mathcal{L}_{\text{contrast}} = \frac{1}{N} \sum_{m=2}^M \sum_{n=1}^N \sum_{i \in \mathbb{A}} \left| f_s^m(z_n^m, z_i^m; \theta_s^m) - f_s^1(z_n^1, z_i^1; \theta_s^1) \right|^2\]该损失确保不同模态学习到的样本亲和关系(自表达系数)保持一致,从而实现信息融合。
⚪ 解码器
解码器接收来自自表达模块的重构潜变量 $\hat{z}_n^m$ 和批次注释 $s$,输出第 $m$ 个组学观测数据的条件分布参数 $p(x^m | \hat{z}^m, s)$。条件分布的选择基于数据的模态特性,如 RNA 数据使用负二项分布(Negative Binomial, NB),蛋白质数据使用负二项混合分布(Negative Binomial Mixture, NBM)以建模前景信号和背景噪声。
模型通过最大化证据下界(Evidence Lower Bound, ELBO)进行训练:
\[\log p(x^m | s) \geq \mathbb{E}_{q(z^m | x^m, s)}(\log p(x^m | z^m, s)) - \text{KL}(q(z^m | x^m, s) \| p(z^m))\]对应的 ELBO 损失为:
\[\mathcal{L}_{\text{ELBO}}^m = -\mathbb{E}_{q(z^m | x^m, s)}(\log p(x^m | z^m, s)) + \text{KL}(q(z^m | x^m, s) \| p(z^m))\]其中第一项为重构损失(reconstruction loss),第二项为 KL 散度正则项。
⚪ 总体优化目标
scMSI 的总体损失函数为三部分的加权和:
\[\min_{\theta_e, \theta_d, \theta_s} \sum_{m=1}^M \mathcal{L}_{\text{ELBO}}^m + \lambda_1 \sum_{m=1}^M \mathcal{L}_{\text{SE}}^m + \lambda_2 \mathcal{L}_{\text{contrast}}\]其中 $\theta_e$、$\theta_d$、$\theta_s$ 分别代表编码器、解码器和自表达组件的神经网络参数;$\lambda_1$ 和 $\lambda_2$ 为权衡超参数,用于平衡重构、自表达学习和跨模态一致性。
3. 实验分析
3.1 基准数据集性能评估
作者首先在多种单细胞多组学数据集上评估 scMSI 性能,并与 Seurat、MOFA2、TotalVI、MultiVI、scMVP、scMM、Portal、BREM-SC、LinQ-View 等方法对比。
细胞系数据集 (图A)
- scCAT-seq 数据集:scMSI、MultiVI、Seurat 和 MOFA2 均表现优异,这可能归因于该数据结构相对简单。
- SNARE-seq 数据集:scMSI 和 scMVP 显著优于其他方法。值得注意的是,scMVP 在 scCAT-seq 上表现不佳,可能是由于该数据集细胞数量有限。
PBMC 数据集 (图B)
- In-house human PBMC:scMSI 取得最高 ARI 和 NMI 得分,且多次运行结果稳定(误差棒小)。BREM-SC 性能良好但方差较大,MOFA2 表现尚可。
- Public human PBMC:scMSI 同样表现最佳,Portal 和 Seurat 在该数据集上表现优于在 In-house 数据上。BREM-SC 和 LinQ-View 波动较大。

可视化对比(图C,D)
- In-house human PBMC:scMSI 的 UMAP 可视化显示细胞类型(B cells、CD14+ monocytes、CD16+ monocytes、CD4+ T cells、CD8+ T cells、NK cells)分离清晰;Portal 出现严重混合;BREM-SC 和 Seurat 有一定混杂;TotalVI、MOFA2、LinQ-View 和 scMM 也存在不同程度的重叠。
- Public human PBMC:scMSI 仍保持清晰的细胞类型边界;Portal 在该数据集上表现有所改善但仍不如 scMSI;其他方法如 TotalVI、MOFA2 等也存在类别重叠现象。

3.2 多模态信息融合与细胞亚型识别(CBMC 数据集)
- Figure A(仅 RNA):基于转录组聚类可识别 CD4+ T cells、NK cells、monocytes、precursor cells 和 platelets,但无法区分 CD8+ T 与 NK 亚型,也未能识别 CD16+ monocytes。
- Figure B(仅 Protein):基于蛋白质组聚类可识别 CD14+ monocytes 和 CD8+ NK,但 CD16+ monocytes 区分不清。
- Figure C(scMSI 整合):融合转录组和蛋白质组信息后,成功区分更多精细亚型,包括 CD8+ NK、CD8- NK、CD16+ Monocyte、CD8+ T、CD4+ T,以及前体细胞(Pre.)和血小板(Platelet)。
- Figure D(RNA 热图):各细胞类群表现出特异的基因表达模式,如 B Cell 高表达 CD79A、MS4A1;CD14 Mono 高表达 LYZ、CST3;Ery.(红细胞)高表达 HBB、HBA1 等。
- Figure E(Protein 热图):各细胞类群表现出特异的蛋白标记,如 CD14 在 CD14 Mono 中高表达,CD16 在 CD16 Mono 中高表达,CD3 在 T cells 中高表达等。
- Figure F(蛋白质去噪分析):展示了 CD3、CD4、CD8 三个标记蛋白的原始计数(raw counts)、scMSI 插补表达(imputed expression)和前景概率(foreground probability)。原始数据中信号稀疏且存在背景噪声;经过 scMSI 去噪后,CD8+ 和 CD8- NK 亚型的标记表达更加清晰可辨,前景概率(范围 0-1)有效区分了真实信号与背景噪声。

3.3 肺癌免疫景观异质性分析(NSCLC 数据集)
作者应用 scMSI 分析非小细胞肺癌(NSCLC)数据,包含肺腺癌(LUAD)和肺鳞癌(LUSC),共 176,312 个细胞,探索两种癌症类型间的免疫细胞组成差异。
3.3.1 细胞类型识别与分布
- Figure A:UMAP 图显示 scMSI 识别出 9 种主要免疫细胞群:B & plasma、CD4+ T、CD8+ T、DC(树突状细胞)、MS(肥大细胞)、MoMφ(单核细胞来源巨噬细胞)、Mono(单核细胞)、Mφ(巨噬细胞)、NK、pDC(浆细胞样树突状细胞)。
- Figure B:疾病类型分布显示,即使去除批次效应后,LUAD(蓝色)和 LUSC(橙色)仍存在非重叠的细胞群体,表明免疫景观差异。
- Figure C,D:分别展示 RNA 和 Protein 水平各细胞类型的标记基因/蛋白表达热图。
- Figure E:细胞类型比例堆积图显示:Mast cells、B & plasma、CD8+ T、DC 和 NK cells 主要来源于 LUSC;而 Mφ 和 Mono 主要来源于 LUAD。

3.3.2 树突状细胞(DC)亚群分析
- Figure F,G:聚焦 DC 细胞群,scMSI 融合多模态信息识别出三个亚群:cDC1(经典 DC 1型)、cDC2(经典 DC 2型)和 mregDC(富含调控分子的成熟 DC)。单一组学难以区分这些亚群,例如 mregDC 缺乏 RNA 水平的特异性标记,但可通过 HLA-DR、PD-L1、CD86、CD40 等蛋白标记识别。
- Figure H:柱状图显示 DC 亚群比例差异:LUSC 中 cDC2 占主导(约 80%),而 LUAD 中 cDC1 和 mregDC 比例(分别约 20% 和 60%)显著高于 cDC2(约 10%)。
- Figure I,J:分别展示 DC 亚群的 RNA(IRF8、WDFY4、CLEC9A 等)和 Protein(CD141、CD26、CD1c、CD5 等)标记表达热图,显示 cDC1、cDC2、mregDC 的分子特征差异。

3.4 空间转录组学应用
为验证 scMSI 的可扩展性,作者将其应用于空间分辨率转录组(SRT)数据,整合空间基因表达与组织学图像。
3.4.1 小鼠大脑空间域检测
- Figure A(scMSI)和 Figure B(SpaGCN):两种方法均能准确检测小鼠大脑皮层结构。
- Figure C 详细展示 scMSI 识别的各皮层层次(Cortical layer 1、layer 2/3、layer 4、layer 5、layer 6)和胼胝体(Corpus callosum)的空间分布,与已知神经解剖结构吻合。

3.4.2 乳腺癌组织分析
- Figure D:手动标注的真实组织区域(True type),包括肿瘤浸润性导管癌(IDC)亚型、健康组织、肿瘤边缘等。
- Figure E(scMSI):ARI 得分 0.63,分割边界平滑,在肿瘤区域内识别出更多精细亚群,证明 scMSI 能有效结合表达和成像数据。
- Figure F(SpaGCN):ARI 得分 0.54,分割结果相对粗糙,部分区域混合严重。
