单细胞多组学主题嵌入揭示了细胞类型特异性和与 COVID-19 严重程度相关的免疫特征.
0. TL; DR
moETM(multi-omics embedded topic model)是一种可解释的深度生成模型,用于整合单细胞多组学数据。该方法基于变分自编码器(variational autoencoder, VAE)框架,采用高斯乘积(product-of-Gaussians, PoG)作为编码器融合多模态信息,并使用线性解码器学习低维主题(topic)嵌入与特征嵌入。通过引入批次效应校正参数,moETM能够有效消除技术批次差异,同时保留生物学变异。
作者在7个公开数据集上与6种 state-of-the-art 方法(SMILE、scMM、Cobolt、MultiVI/TotalVI、MOFA+、Seurat V4)进行了系统比较,证明moETM在细胞聚类、批次校正和跨模态插补任务中均表现优异。特别地,moETM应用于 COVID-19 CITE-seq 数据集时,成功识别出与疾病严重程度相关的免疫细胞亚群特征(如B cell恶性病变相关主题),并发现IL6和CD5等潜在治疗靶点。
1. 背景介绍
近年来,单细胞测序技术已从单一模态发展到多模态并行测量。CITE-seq(Cellular Indexing of Transcriptomes and Epitopes by Sequencing)技术能够同时捕获单个细胞的转录组(transcriptome)和表面蛋白质组(surface proteome);而 scRNA-seq 与 scATAC-seq(assay for transposase-accessible chromatin using sequencing)的联合分析则提供了基因表达与染色质可及性(chromatin accessibility)的关联视图。这些多组学数据为解析细胞异质性、基因调控程序和疾病机制提供了前所未有的机会。
然而,单细胞多组学数据分析面临以下挑战:
- 数据稀疏与高维性:多组学数据通常具有高维度(数万个基因、峰或蛋白质)和高稀疏性(大量零值),且各模态的数据分布特性不同(如 RNA 计数的过离散性,ATAC 数据的二元性)。
- 批次效应:不同实验批次、供体或测序平台引入的技术变异(batch effects)往往掩盖真实的生物学信号。
- 计算方法的权衡:现有方法常在灵活性与可解释性之间难以兼顾。基于神经网络的方法(如 TotalVI、MultiVI)虽具强大建模能力,但缺乏生物学可解释性;而线性模型或独立特征假设虽易于解释,却难以捕捉复杂的细胞状态。
目前已发展出多种单细胞多组学整合方法。这些方法在特定任务上表现良好,但往往需要牺牲可扩展性、可解释性或灵活性。尤其当使用神经网络编码高维多组学数据时,其黑盒特性使得识别细胞类型特异性标志物和调控程序变得困难。因此,迫切需要一种既能有效整合多模态数据、校正批次效应,又能提供生物学可解释性的统一框架。
2. moETM 方法
moETM 将单细胞多组学数据类比为多语言文档:每个细胞是一个文档,每种组学模态(基因、蛋白质、染色质峰)是一种语言,测序读数(reads)是文档中的词符(tokens)。模型假设每个细胞的多模态观测数据是由一组潜在的主题(topics)混合生成的,这些主题代表细胞状态或生物学程序。

2.1 数据生成过程
对于包含 $M$ 种模态的数据,细胞 $n$ 的观测为计数向量集合 \(\{\mathbf{x}_n^{(m)}\}_{m=1}^M\) ,其中每种模态 $m$ 有 $V^{(m)}$ 个特征(如基因、蛋白质或峰)。
每个细胞 $n$ 的主题混合比例 $\boldsymbol{\theta}_n \in \mathbb{R}^K$($K$ 为主题数)服从Logistic Normal分布:
\[\boldsymbol{\delta}_n \sim \mathcal{N}(0, \mathbf{I}), \quad \boldsymbol{\theta}_n = \text{softmax}(\boldsymbol{\delta}_n)\]对于模态 $m$ 中的第 $i$ 个读数,其对应的特征索引 $v^{(m)}$ 服从分类分布:
\[\mathbf{w}_{n,i}^{(m)} \sim \text{Cat}(\mathbf{r}_{n}^{(m)})\]其中 $\mathbf{r}_{n}^{(m)} \in \mathbb{R}^{V^{(m)}}$ 是观测速率向量,参数化为:
\[\hat{r}_{n,v}^{(m)} = \boldsymbol{\theta}_n \mathbf{\alpha} \mathbf{p}_{:,v}^{(m)} + \lambda_{s(n),v}^{(m)}\]其中$\mathbf{\alpha} \in \mathbb{R}^{K \times L}$ 是主题嵌入矩阵($L$ 为嵌入维度);$\mathbf{p}^{(m)} \in \mathbb{R}^{L \times V^{(m)}}$ 是模态 $m$ 的特征嵌入矩阵;$\lambda_{s(n),v}^{(m)}$ 是依赖于批次 $s(n)$ 的批次效应校正参数。
归一化后的期望观测速率为:
\[r_{n,v}^{(m)} = \frac{\exp(\hat{r}_{n,v}^{(m)})}{\sum_{v'=1}^{V^{(m)}} \exp(\hat{r}_{n,v'}^{(m)})}\]给定观测计数 \(\mathbf{x}_n^{(m)}\) (特征 $v$ 的计数为 $x_{n,v}^{(m)}$ ),似然服从多项分布(Multinomial):
\[p\left(\{\mathbf{x}_n^{(m)}\}_{m=1}^M \mid \mathbf{r}_n\right) \propto \prod_{m=1}^M \prod_{v=1}^{V^{(m)}} \left(r_{n,v}^{(m)}\right)^{x_{n,v}^{(m)}}\]2.2 编码器:高斯乘积(Product-of-Gaussians)
为整合多模态信息,moETM 采用 PoG 框架替代传统的混合专家模型(MoE)。对于每种模态 $m$,编码器神经网络(两层全连接层)输出该模态特有的高斯参数:
\[[\boldsymbol{\mu}_n^{(m)}; \log \boldsymbol{\sigma}_n^{(m)}] = \text{Encoder}(\tilde{\mathbf{x}}_n^{(m)}; \mathbf{W})\]其中 $\tilde{\mathbf{x}}_n^{(m)}$ 是模态 $m$ 的归一化计数(每个特征计数除以该模态总计数)。
PoG 融合各模态的高斯分布,得到联合后验分布 \(q(\boldsymbol{\delta}_n) = \mathcal{N}(\boldsymbol{\mu}^*, \boldsymbol{\sigma}^{*2})\) ,其参数为:
\[\boldsymbol{\mu}^* = \frac{\sum_{m=1}^M \boldsymbol{\mu}_n^{(m)} / \boldsymbol{\sigma}_n^{(m)2}}{1 + \sum_{m=1}^M 1/\boldsymbol{\sigma}_n^{(m)2}}, \quad \boldsymbol{\sigma}^{*2} = \frac{1}{1 + \sum_{m=1}^M 1/\boldsymbol{\sigma}_n^{(m)2}}\]与 MoE 方法(对每个模态采样后平均)相比,PoG 只需从联合高斯分布采样一次,减少了蒙特卡洛近似带来的采样噪声,提高了变异推断的稳定性。
2.3 解码器与批次校正
解码器采用线性矩阵分解结构,重建各模态的观测:
\[\hat{\mathbf{x}}_n^{(m)} \propto \boldsymbol{\theta}_n \mathbf{\alpha} \mathbf{p}^{(m)} + \boldsymbol{\lambda}_{s(n)}^{(m)}\]这种设计将细胞-主题矩阵 $\boldsymbol{\Theta}$、主题嵌入 $\mathbf{\alpha}$ 和特征嵌入 $\mathbf{p}^{(m)}$ 分离,使得不同模态共享相同的细胞-主题表示,确保跨模态一致性;各模态拥有独立的特征嵌入,捕捉模态特异性;批次效应通过加性参数 $\boldsymbol{\lambda}_{s}^{(m)}$ 进行校正,允许模型学习跨批次的共享生物学主题。
2.4 变分推断与模型训练
由于边缘似然难以直接计算,moETM 通过最大化证据下界(ELBO)进行优化:
\[\mathcal{L}_n = \mathbb{E}_{q(\boldsymbol{\delta}_n)}[\log p(\{\mathbf{x}_n^{(m)}\}_{m=1}^M \mid \boldsymbol{\delta}_n, \boldsymbol{\Theta})] - \text{KL}[q(\boldsymbol{\delta}_n) \| p(\boldsymbol{\delta}_n)]\]其中 KL 散度有闭式解。通过重参数化技巧(reparameterization trick)采样 $\tilde{\boldsymbol{\delta}}_n = \boldsymbol{\mu}^* + \boldsymbol{\sigma}^* \odot \boldsymbol{\epsilon}$($\boldsymbol{\epsilon} \sim \mathcal{N}(0, \mathbf{I})$),模型参数(编码器权重 $\mathbf{W}$、解码器权重 $\mathbf{\alpha}$、$\mathbf{p}^{(m)}$ 和批次参数 $\boldsymbol{\lambda}^{(m)}$)可通过反向传播端到端优化。
2.5 跨模态插补与下游分析
训练后的模型可利用已观测模态推断缺失模态。例如,利用 RNA 编码器生成主题比例,再通过蛋白质解码器重建蛋白质表达(RNA2protein),反之亦然(protein2RNA)。
模型推断的细胞主题比例可用于聚类和可视化。每个主题的特征权重 $\mathbf{\alpha}\mathbf{p}^{(m)}$ 可识别该主题的标记基因、蛋白质或调控峰。结合 GSEA(Gene Set Enrichment Analysis)和 motif 富集分析,可揭示细胞类型特异性通路和转录因子调控网络。
3. 实验分析
作者在7个公开数据集上评估了 moETM,包括4个 gene+peak 数据集(BMMC1、MSLAC、MKC、MBC)和3个 gene+protein 数据集(BMMC2、HWBC、HBIC)。对比方法包括 SMILE、scMM、Cobolt、MultiVI/TotalVI、MOFA+ 和 Seurat V4。评估指标涵盖生物学保守性(ARI、NMI)和批次校正(kBET、GC)。
3.1 多组学整合性能评估
作者展示了 moETM 与对比方法在多种实验设置下的性能(60/40随机分割、整数据集训练、跨批次训练):
- Figure A(ARI):
- 左列:在7个单独数据集上,moETM 在6个数据集上取得最高或次高的 ARI(调整兰德指数),仅在 MBC(小鼠脑细胞,仅3,293个细胞)上略逊。这表明模型在样本量较小时可能受限。
- 中列:跨数据集平均后,moETM 在 avg_protein 和 avg_all 任务上表现最佳(ARI分别为0.72和0.60)。
- 右列:消融实验显示,仅使用单模态(moETM_rna、moETM_atac/protein)性能显著下降,证明多模态整合的优势。moETM_avg(使用采样平均而非 PoG)性能劣于标准 moETM,验证 PoG 的有效性。
- Figure B(NMI):趋势与 ARI 一致。moETM 在大多数数据集上取得最高 NMI(归一化互信息),仅在 gene+peak 数据集上略低于 Seurat V4,但后者标准差更大。
- Figure C(kBET):kBET($k$-近邻批次效应检验)衡量批次混合程度,值越低表示批次效应越小。moETM 在 BMMC1 上表现最好,在其他数据集上次于 MultiVI/TotalVI,但后者可能过度校正批次效应而牺牲生物学保守性。
- Figure D(GC):
- GC(图连通性)评估同类型细胞跨批次的连通性。moETM 在所有数据集上均取得最高 GC 分数(如 BMMC1 达到0.98),表明其在去除批次效应的同时最佳地保留了细胞类型结构。

3.2 细胞聚类与批次校正可视化
作者通过 UMAP 可视化验证聚类质量:
- Figure A(BMMC2 CITE-seq):
- Batch 行:moETM 的批次混合最好(不同颜色点均匀分布),而 SMILE 和 scMM 存在明显批次分离(红框标注)。
- Cell type 行:moETM 清晰区分 Plasmablast IGKC- 细胞(红框),而 SMILE 将其分散为多个小簇,scMM 则与 NK 细胞混淆。此外,moETM 很好地区分了 CD4+ T activated 和 CD4+ T naive 细胞(橙圈),而对比方法将二者混合。
- Figure B(BMMC1 gene+peak):moETM 清晰分离 B1 B 细胞和 naive CD20+ B 细胞(红框),而 SMILE 和 scMM 将二者混合。SMILE 甚至将 B1 B 与 NK 细胞混淆。

3.3 跨模态插补准确性
作者评估了 moETM 的跨模态插补能力:
- Figure A-B(RNA→Protein):热图显示原始蛋白质表达与从基因表达插补的蛋白质表达高度相似。散点图显示插补值与原始值呈强线性相关(Pearson 相关系数0.95),显著优于 scMM 和 BABEL。
- Figure C-D(ATAC→RNA):从染色质可及性插补的基因表达热图与原始 RNA 数据模式一致。散点图显示 ATAC2RNA 插补的 Pearson 相关系数为0.69(随机分割设置),优于 BABEL(0.65)和 scMM。

3.4 细胞类型特征识别与调控网络
作者展示了 BMMC2 数据的主题分析:
- Figure A:100个主题中基因与蛋白质排名相关性分布,平均 Spearman $\rho=0.29$,96个主题呈正相关,13个主题相关性>0.5。GSEA 结果显示 MSigDB C7 免疫特征基因集在主题上的富集情况,证明主题与免疫通路关联。
- Figure B:热图显示细胞-主题矩阵,主题44(monocyte,单核细胞)、主题40(B cell)、主题83(NK)等分别富集于相应细胞类型。
- Figure D:选定主题的顶部基因和蛋白质:主题40(B cell)的顶部基因包括 CR2、SSPN、ADAM28,顶部蛋白质包括 CD21、CD20、CD40,均为已知 B cell 标记物。
- Figure E:UMAP 显示主题、基因和蛋白质在共享嵌入空间中的局部化,同一主题的标记基因和蛋白质聚集在一起,验证嵌入空间的对齐质量。

作者分析了 BMMC1(gene+peak)数据的调控关系:
- Figure A:主题32(CD8+ T cell)的顶部基因包括细胞毒性标记 GZMK、TNFRSF9;顶部邻近峰(peak-neighboring genes)包括 APBA2(细胞毒性淋巴细胞标记)和 XCL2(T细胞活化相关)。
- Figure D-E:motif 富集分析与调控网络:主题3(CD4+ T naive)富集 FLI1 转录因子 motif,其靶基因包括 IL4I1 和 PTPN13;主题32富集 MEF2A 和 PAX5,靶基因包括 RGS1、EGR1、GZMK 等。这些 TF-target 关系与 ENCODE 数据库一致。

3.5 COVID-19疾病严重程度分析
作者展示了 moETM 在 COVID-19 CITE-seq 数据集(HBIC,130个患者,781,123个细胞)上的应用:
- A:主题与表型(严重程度、性别、吸烟史、年龄)的关联热图。主题42与Critical(危重)状态和高龄(70-79岁)显著正相关;主题80与Severe(重症)相关。
- B:主题与细胞类型的关联。主题42和主题21均富集于 B cell。
- C:UMAP 显示 B cell 被细分为6个亚群:非转换记忆 B(non-switched memory)、转换记忆 B(switched memory)、耗竭 B(exhausted)、不成熟 B(immature)、纯真 B(naive)和恶性 B(malignant)。
- D:将 COVID 严重程度映射到 B cell 亚群,发现危重患者主要对应恶性B细胞。
- E:IL6 基因表达在 B cell 区域(特别是恶性 B 细胞)高表达。IL6 是已知的 COVID-19 重症炎症因子,此结果提示 B cell 来源的 IL6 可能参与疾病恶化。

这些结果表明 moETM 不仅能识别已知的细胞类型标记,还能揭示与疾病表型相关的稀有细胞亚群(如恶性 B cell)和潜在治疗靶点(IL6、CD5)。