单细胞多组学主题嵌入揭示了细胞类型特异性和与 COVID-19 严重程度相关的免疫特征.

paper：Single-cell multi-omics topic embedding reveals cell-type-specific and COVID-19 severity-related immune signatures

0. TL; DR

moETM（multi-omics embedded topic model）是一种可解释的深度生成模型，用于整合单细胞多组学数据。该方法基于变分自编码器（variational autoencoder, VAE）框架，采用高斯乘积（product-of-Gaussians, PoG）作为编码器融合多模态信息，并使用线性解码器学习低维主题（topic）嵌入与特征嵌入。通过引入批次效应校正参数，moETM能够有效消除技术批次差异，同时保留生物学变异。

作者在7个公开数据集上与6种 state-of-the-art 方法（SMILE、scMM、Cobolt、MultiVI/TotalVI、MOFA+、Seurat V4）进行了系统比较，证明moETM在细胞聚类、批次校正和跨模态插补任务中均表现优异。特别地，moETM应用于 COVID-19 CITE-seq 数据集时，成功识别出与疾病严重程度相关的免疫细胞亚群特征（如B cell恶性病变相关主题），并发现IL6和CD5等潜在治疗靶点。

1. 背景介绍

近年来，单细胞测序技术已从单一模态发展到多模态并行测量。CITE-seq（Cellular Indexing of Transcriptomes and Epitopes by Sequencing）技术能够同时捕获单个细胞的转录组（transcriptome）和表面蛋白质组（surface proteome）；而 scRNA-seq 与 scATAC-seq（assay for transposase-accessible chromatin using sequencing）的联合分析则提供了基因表达与染色质可及性（chromatin accessibility）的关联视图。这些多组学数据为解析细胞异质性、基因调控程序和疾病机制提供了前所未有的机会。

然而，单细胞多组学数据分析面临以下挑战：

数据稀疏与高维性：多组学数据通常具有高维度（数万个基因、峰或蛋白质）和高稀疏性（大量零值），且各模态的数据分布特性不同（如 RNA 计数的过离散性，ATAC 数据的二元性）。
批次效应：不同实验批次、供体或测序平台引入的技术变异（batch effects）往往掩盖真实的生物学信号。
计算方法的权衡：现有方法常在灵活性与可解释性之间难以兼顾。基于神经网络的方法（如 TotalVI、MultiVI）虽具强大建模能力，但缺乏生物学可解释性；而线性模型或独立特征假设虽易于解释，却难以捕捉复杂的细胞状态。

目前已发展出多种单细胞多组学整合方法。这些方法在特定任务上表现良好，但往往需要牺牲可扩展性、可解释性或灵活性。尤其当使用神经网络编码高维多组学数据时，其黑盒特性使得识别细胞类型特异性标志物和调控程序变得困难。因此，迫切需要一种既能有效整合多模态数据、校正批次效应，又能提供生物学可解释性的统一框架。

2. moETM 方法

moETM 将单细胞多组学数据类比为多语言文档：每个细胞是一个文档，每种组学模态（基因、蛋白质、染色质峰）是一种语言，测序读数（reads）是文档中的词符（tokens）。模型假设每个细胞的多模态观测数据是由一组潜在的主题（topics）混合生成的，这些主题代表细胞状态或生物学程序。

2.1 数据生成过程

对于包含 $M$ 种模态的数据，细胞 $n$ 的观测为计数向量集合 $\{\mathbf{x}_n^{(m)}\}_{m=1}^M$ ，其中每种模态 $m$ 有 $V^{(m)}$ 个特征（如基因、蛋白质或峰）。

每个细胞 $n$ 的主题混合比例 $\boldsymbol{\theta}_n \in \mathbb{R}^K$（$K$ 为主题数）服从Logistic Normal分布：

\[\boldsymbol{\delta}_n \sim \mathcal{N}(0, \mathbf{I}), \quad \boldsymbol{\theta}_n = \text{softmax}(\boldsymbol{\delta}_n)\]

对于模态 $m$ 中的第 $i$ 个读数，其对应的特征索引 $v^{(m)}$ 服从分类分布：

\[\mathbf{w}_{n,i}^{(m)} \sim \text{Cat}(\mathbf{r}_{n}^{(m)})\]

其中 $\mathbf{r}_{n}^{(m)} \in \mathbb{R}^{V^{(m)}}$ 是观测速率向量，参数化为：

\[\hat{r}_{n,v}^{(m)} = \boldsymbol{\theta}_n \mathbf{\alpha} \mathbf{p}_{:,v}^{(m)} + \lambda_{s(n),v}^{(m)}\]

其中$\mathbf{\alpha} \in \mathbb{R}^{K \times L}$ 是主题嵌入矩阵（$L$ 为嵌入维度）；$\mathbf{p}^{(m)} \in \mathbb{R}^{L \times V^{(m)}}$ 是模态 $m$ 的特征嵌入矩阵;$\lambda_{s(n),v}^{(m)}$ 是依赖于批次 $s(n)$ 的批次效应校正参数。

归一化后的期望观测速率为：

\[r_{n,v}^{(m)} = \frac{\exp(\hat{r}_{n,v}^{(m)})}{\sum_{v'=1}^{V^{(m)}} \exp(\hat{r}_{n,v'}^{(m)})}\]

给定观测计数 $\mathbf{x}_n^{(m)}$ （特征 $v$ 的计数为 $x_{n,v}^{(m)}$ ），似然服从多项分布（Multinomial）：

\[p\left(\{\mathbf{x}_n^{(m)}\}_{m=1}^M \mid \mathbf{r}_n\right) \propto \prod_{m=1}^M \prod_{v=1}^{V^{(m)}} \left(r_{n,v}^{(m)}\right)^{x_{n,v}^{(m)}}\]

2.2 编码器：高斯乘积（Product-of-Gaussians）

为整合多模态信息，moETM 采用 PoG 框架替代传统的混合专家模型（MoE）。对于每种模态 $m$，编码器神经网络（两层全连接层）输出该模态特有的高斯参数：

\[[\boldsymbol{\mu}_n^{(m)}; \log \boldsymbol{\sigma}_n^{(m)}] = \text{Encoder}(\tilde{\mathbf{x}}_n^{(m)}; \mathbf{W})\]

其中 $\tilde{\mathbf{x}}_n^{(m)}$ 是模态 $m$ 的归一化计数（每个特征计数除以该模态总计数）。

PoG 融合各模态的高斯分布，得到联合后验分布 $q(\boldsymbol{\delta}_n) = \mathcal{N}(\boldsymbol{\mu}^*, \boldsymbol{\sigma}^{*2})$ ，其参数为：

\[\boldsymbol{\mu}^* = \frac{\sum_{m=1}^M \boldsymbol{\mu}_n^{(m)} / \boldsymbol{\sigma}_n^{(m)2}}{1 + \sum_{m=1}^M 1/\boldsymbol{\sigma}_n^{(m)2}}, \quad \boldsymbol{\sigma}^{*2} = \frac{1}{1 + \sum_{m=1}^M 1/\boldsymbol{\sigma}_n^{(m)2}}\]

与 MoE 方法（对每个模态采样后平均）相比，PoG 只需从联合高斯分布采样一次，减少了蒙特卡洛近似带来的采样噪声，提高了变异推断的稳定性。

2.3 解码器与批次校正

解码器采用线性矩阵分解结构，重建各模态的观测：

\[\hat{\mathbf{x}}_n^{(m)} \propto \boldsymbol{\theta}_n \mathbf{\alpha} \mathbf{p}^{(m)} + \boldsymbol{\lambda}_{s(n)}^{(m)}\]

这种设计将细胞-主题矩阵 $\boldsymbol{\Theta}$、主题嵌入 $\mathbf{\alpha}$ 和特征嵌入 $\mathbf{p}^{(m)}$ 分离，使得不同模态共享相同的细胞-主题表示，确保跨模态一致性；各模态拥有独立的特征嵌入，捕捉模态特异性；批次效应通过加性参数 $\boldsymbol{\lambda}_{s}^{(m)}$ 进行校正，允许模型学习跨批次的共享生物学主题。

2.4 变分推断与模型训练

由于边缘似然难以直接计算，moETM 通过最大化证据下界（ELBO）进行优化：

\[\mathcal{L}_n = \mathbb{E}_{q(\boldsymbol{\delta}_n)}[\log p(\{\mathbf{x}_n^{(m)}\}_{m=1}^M \mid \boldsymbol{\delta}_n, \boldsymbol{\Theta})] - \text{KL}[q(\boldsymbol{\delta}_n) \| p(\boldsymbol{\delta}_n)]\]

其中 KL 散度有闭式解。通过重参数化技巧（reparameterization trick）采样 $\tilde{\boldsymbol{\delta}}_n = \boldsymbol{\mu}^* + \boldsymbol{\sigma}^* \odot \boldsymbol{\epsilon}$（$\boldsymbol{\epsilon} \sim \mathcal{N}(0, \mathbf{I})$），模型参数（编码器权重 $\mathbf{W}$、解码器权重 $\mathbf{\alpha}$、$\mathbf{p}^{(m)}$ 和批次参数 $\boldsymbol{\lambda}^{(m)}$）可通过反向传播端到端优化。

2.5 跨模态插补与下游分析

训练后的模型可利用已观测模态推断缺失模态。例如，利用 RNA 编码器生成主题比例，再通过蛋白质解码器重建蛋白质表达（RNA2protein），反之亦然（protein2RNA）。

模型推断的细胞主题比例可用于聚类和可视化。每个主题的特征权重 $\mathbf{\alpha}\mathbf{p}^{(m)}$ 可识别该主题的标记基因、蛋白质或调控峰。结合 GSEA（Gene Set Enrichment Analysis）和 motif 富集分析，可揭示细胞类型特异性通路和转录因子调控网络。

3. 实验分析

作者在7个公开数据集上评估了 moETM，包括4个 gene+peak 数据集（BMMC1、MSLAC、MKC、MBC）和3个 gene+protein 数据集（BMMC2、HWBC、HBIC）。对比方法包括 SMILE、scMM、Cobolt、MultiVI/TotalVI、MOFA+ 和 Seurat V4。评估指标涵盖生物学保守性（ARI、NMI）和批次校正（kBET、GC）。

3.1 多组学整合性能评估

作者展示了 moETM 与对比方法在多种实验设置下的性能（60/40随机分割、整数据集训练、跨批次训练）：

Figure A（ARI）：
- 左列：在7个单独数据集上，moETM 在6个数据集上取得最高或次高的 ARI（调整兰德指数），仅在 MBC（小鼠脑细胞，仅3,293个细胞）上略逊。这表明模型在样本量较小时可能受限。
- 中列：跨数据集平均后，moETM 在 avg_protein 和 avg_all 任务上表现最佳（ARI分别为0.72和0.60）。
- 右列：消融实验显示，仅使用单模态（moETM_rna、moETM_atac/protein）性能显著下降，证明多模态整合的优势。moETM_avg（使用采样平均而非 PoG）性能劣于标准 moETM，验证 PoG 的有效性。
Figure B（NMI）：趋势与 ARI 一致。moETM 在大多数数据集上取得最高 NMI（归一化互信息），仅在 gene+peak 数据集上略低于 Seurat V4，但后者标准差更大。
Figure C（kBET）：kBET（$k$-近邻批次效应检验）衡量批次混合程度，值越低表示批次效应越小。moETM 在 BMMC1 上表现最好，在其他数据集上次于 MultiVI/TotalVI，但后者可能过度校正批次效应而牺牲生物学保守性。
Figure D（GC）：
- GC（图连通性）评估同类型细胞跨批次的连通性。moETM 在所有数据集上均取得最高 GC 分数（如 BMMC1 达到0.98），表明其在去除批次效应的同时最佳地保留了细胞类型结构。

3.2 细胞聚类与批次校正可视化

作者通过 UMAP 可视化验证聚类质量：

Figure A（BMMC2 CITE-seq）：
- Batch 行：moETM 的批次混合最好（不同颜色点均匀分布），而 SMILE 和 scMM 存在明显批次分离（红框标注）。
- Cell type 行：moETM 清晰区分 Plasmablast IGKC- 细胞（红框），而 SMILE 将其分散为多个小簇，scMM 则与 NK 细胞混淆。此外，moETM 很好地区分了 CD4+ T activated 和 CD4+ T naive 细胞（橙圈），而对比方法将二者混合。
Figure B（BMMC1 gene+peak）：moETM 清晰分离 B1 B 细胞和 naive CD20+ B 细胞（红框），而 SMILE 和 scMM 将二者混合。SMILE 甚至将 B1 B 与 NK 细胞混淆。

3.3 跨模态插补准确性

作者评估了 moETM 的跨模态插补能力：

Figure A-B（RNA→Protein）：热图显示原始蛋白质表达与从基因表达插补的蛋白质表达高度相似。散点图显示插补值与原始值呈强线性相关（Pearson 相关系数0.95），显著优于 scMM 和 BABEL。
Figure C-D（ATAC→RNA）：从染色质可及性插补的基因表达热图与原始 RNA 数据模式一致。散点图显示 ATAC2RNA 插补的 Pearson 相关系数为0.69（随机分割设置），优于 BABEL（0.65）和 scMM。

3.4 细胞类型特征识别与调控网络

作者展示了 BMMC2 数据的主题分析：

Figure A：100个主题中基因与蛋白质排名相关性分布，平均 Spearman $\rho=0.29$，96个主题呈正相关，13个主题相关性>0.5。GSEA 结果显示 MSigDB C7 免疫特征基因集在主题上的富集情况，证明主题与免疫通路关联。
Figure B：热图显示细胞-主题矩阵，主题44（monocyte，单核细胞）、主题40（B cell）、主题83（NK）等分别富集于相应细胞类型。
Figure D：选定主题的顶部基因和蛋白质：主题40（B cell）的顶部基因包括 CR2、SSPN、ADAM28，顶部蛋白质包括 CD21、CD20、CD40，均为已知 B cell 标记物。
Figure E：UMAP 显示主题、基因和蛋白质在共享嵌入空间中的局部化，同一主题的标记基因和蛋白质聚集在一起，验证嵌入空间的对齐质量。

作者分析了 BMMC1（gene+peak）数据的调控关系：

Figure A：主题32（CD8+ T cell）的顶部基因包括细胞毒性标记 GZMK、TNFRSF9；顶部邻近峰（peak-neighboring genes）包括 APBA2（细胞毒性淋巴细胞标记）和 XCL2（T细胞活化相关）。
Figure D-E：motif 富集分析与调控网络：主题3（CD4+ T naive）富集 FLI1 转录因子 motif，其靶基因包括 IL4I1 和 PTPN13；主题32富集 MEF2A 和 PAX5，靶基因包括 RGS1、EGR1、GZMK 等。这些 TF-target 关系与 ENCODE 数据库一致。

3.5 COVID-19疾病严重程度分析

作者展示了 moETM 在 COVID-19 CITE-seq 数据集（HBIC，130个患者，781,123个细胞）上的应用：

A：主题与表型（严重程度、性别、吸烟史、年龄）的关联热图。主题42与Critical（危重）状态和高龄（70-79岁）显著正相关；主题80与Severe（重症）相关。
B：主题与细胞类型的关联。主题42和主题21均富集于 B cell。
C：UMAP 显示 B cell 被细分为6个亚群：非转换记忆 B（non-switched memory）、转换记忆 B（switched memory）、耗竭 B（exhausted）、不成熟 B（immature）、纯真 B（naive）和恶性 B（malignant）。
D：将 COVID 严重程度映射到 B cell 亚群，发现危重患者主要对应恶性B细胞。
E：IL6 基因表达在 B cell 区域（特别是恶性 B 细胞）高表达。IL6 是已知的 COVID-19 重症炎症因子，此结果提示 B cell 来源的 IL6 可能参与疾病恶化。

这些结果表明 moETM 不仅能识别已知的细胞类型标记，还能揭示与疾病表型相关的稀有细胞亚群（如恶性 B cell）和潜在治疗靶点（IL6、CD5）。