单细胞多组学整合的无监督神经网络.

paper：Unsupervised neural network for single cell Multi-omics INTegration (UMINT): an application to health and disease

0. TL; DR

UMINT是用于单细胞多组学整合的无监督神经网络，采用了一个非循环的前馈神经网络架构，参数数量大幅减少。UMINT直接在预处理后的数据上操作，无需任何关于数据分布的先验假设。

作者将UMINT应用于多种健康和疾病（包括一种罕见的MALT淋巴瘤）的CITE-seq数据集。基准测试结果显示，UMINT在细胞聚类等任务上的性能优于Seurat v4, MOFA+, TotalVI以及多种基于自编码器的模型。

1. 背景介绍

单细胞多组学技术，如CITE-seq和SHARE-seq，为我们同时观察同一个细胞的多个分子层面（如RNA和蛋白质）提供了前所未有的机会。这使得我们能够更精细地定义细胞身份，更深入地理解疾病的分子机制。当前的挑战主要来自以下几个方面：

数据内在的复杂性：高维度、高稀疏性、高噪声以及不同测序平台引入的批次效应。
现有方法的局限性：
- 线性模型的不足：像MOFA+这样基于矩阵分解的方法，其线性假设难以捕捉多组学数据中复杂的非线性结构。
- 基于图的方法的依赖性： Seurat v4的WNN方法虽然强大，但其效果依赖于能否准确构建一个加权的近邻图。
- 深度学习模型的开销：基于自编码器（Autoencoder, AE）或变分自编码器（Variational Autoencoder, VAE）的深度模型（如TotalVI, Multigrate）虽然表现出色，但它们通常包含大量的可训练参数，导致训练过程计算开销巨大。
- 数据分布的假设：许多概率生成模型需要对输入数据的统计分布做出特定假设（如负二项分布），这限制了它们的通用性。

作者认为，领域内迫切需要一种鲁棒、高效、灵活的整合方法。它应该拥有轻量级的架构，计算成本低、不依赖于特定的数据分布假设、能够灵活地整合可变数量的组学模态。

2. UMINT 方法

UMINT的核心是一个非循环的前馈神经网络（feed-forward neural network），它包含一个编码器（encoder）和一个解码器（decoder）。其最独特的设计在于其模块化的输入和编码层。

UMINT的编码器负责将多个模态的数据整合并投影到一个低维的潜在空间。假设有$m$种模态的数据 $X_1, X_2, \ldots, X_m$。UMINT的输入层包含$m$个独立的模块，每个模块分别接收一种模态的数据。每个模块的神经元数量等于其对应模态的特征维度 $d_1, d_2, \ldots, d_m$。

输入层之后是一个模态编码层，它同样包含$m$个模块。输入层的第$i$个模块，只与编码层的第$i$个模块进行全连接。这意味着，在被整合之前，每种模态的数据都会先经过一个独立的、模态特异性的非线性变换。

\[a_i^2 = W_i^1 h_i^1 + b_i^1 \quad h_i^2 = \text{ReLU}(a_i^2)\]

来自模态编码层的所有$m$个模块的输出，被完全连接到一个共享的瓶颈层。瓶颈层的输出，就是最终的、融合了所有模态信息的低维潜在嵌入。

\[a_1^3 = \sum_{i=1}^m W_i^2 h_i^2 + b_1^2 \quad h_1^3 = \text{ReLU}(a_1^3)\]

整个编码过程可以概括为：

\[h_1^3 = U_{Encoder}(x_1, x_2, \ldots, x_m)\]

解码器的结构与编码器完全对称，其目标是从低维的潜在嵌入中，重构出原始的多种模态数据。

UMINT的训练目标非常直接：最小化一个加权的重构误差，并辅以L1和L2正则化项。

\[L_{UMINT} = \frac{1}{n} \sum_{i=1}^m \lambda_i \| X_i - \tilde{X}_i \|^2 + \sum_{i=1}^m \sum_{j=2}^4 (\alpha \| h_i^j \|_1 + \beta \| W_i^j \|^2)\]

$L_{UMINT}$的核心是最小化原始数据 $X_i$ 与重构数据 $\tilde{X}_i$ 之间的均方误差。平衡参数 $\lambda_i$ 是一个重要的超参数，用于平衡不同模态在总损失中的贡献。这可以有效避免由于不同模态的特征维度差异巨大（例如，RNA的数万基因 vs. 蛋白质的数百个ADT）而导致的训练偏向。L1/L2正则化用于控制模型复杂度，防止过拟合。

UMINT的模块化设计使其在参数数量上具有巨大优势。对于一个传统的AE，其第一层的参数数量大约是 $(\sum d_i) \times (\sum n_i)$。而对于UMINT，则是 $\sum (d_i \times n_i)$。当模态数大于1时，可以证明UMINT的参数量远小于一个结构相似的传统AE。

\[\text{TP}_{Reduction} = \text{TP}_{AE} - \text{TP}_{UMINT} = \sum_{i=1}^m d_i (\sum_{j=1, j \ne i}^m n_j)\]

更少的参数意味着更快的训练速度和更低的计算资源需求。

3. 实验分析

作者在一系列健康和疾病的CITE-seq数据集以及一个配对的RNA/ATAC数据集上，对UMINT的性能进行了全面的评估。

3.1 实验一：与自编码器（AE）的对比

作者首先将UMINT与标准的AE及其变体（Denoising AE, Sparse AE）进行了直接比较。

在计算效率上，UMINT的训练时间远快于所有基于AE的模型，这证实了其轻量级架构的优势。

在数据重构能力上，UMINT的整体重构分数（Overall Reconstruction Score, ORS）在所有三个数据集（cbmc8k, MALT10k, bmcite30k）上均显著高于所有AE模型。

在细胞聚类性能上（使用k-means或层次聚类），基于UMINT潜在嵌入的聚类结果，其ARI和FMI得分在大多数情况下都优于基于AE模型嵌入的结果。

这些结果充分证明，UMINT的新颖架构在效率和性能上均超越了传统的自编码器方法。

3.2 实验二：与SOTA多组学整合方法的比较

接下来，作者将UMINT与三种代表不同技术路线的SOTA方法进行了比较：Seurat v4（基于图）、MOFA+（基于矩阵分解）和TotalVI（基于VAE）。

在所有三个数据集上，UMINT在聚类准确性（ARI和FMI）上都取得了最佳性能，全面优于Seurat v4, MOFA+和TotalVI。特别是在MALT10k这个罕见病数据集中，UMINT的优势尤为明显，这凸显了其在处理复杂、非典型疾病数据方面的潜力。

3.3 实验三：批次效应处理能力

作者在一个包含多个批次的CITE-seq数据集（kotliarov50k）上，测试了UMINT处理批次效应的能力。作者进行了两组实验：一组是在输入UMINT前，先用Seurat v4的SCTransform进行批次校正；另一组则直接将未经校正的数据输入UMINT。

比较两种情况下的聚类性能，作者发现，即使输入数据未经批次校正，UMINT学习到的嵌入依然能取得与经过校正后相当的聚类准确率（ARI, FMI, Silhouette和DB index得分非常接近）。这表明UMINT的整合过程本身具有一定的批次校正能力。

UMAP可视化显示，如果输入数据未经校正，UMINT的嵌入空间中仍然存在一定的批次分离现象。这说明，虽然UMINT能提取出主要的生物学信号用于聚类，但它并非一个专门的批次校正工具。为了达到最佳的批次混合效果，建议在使用UMINT前，先对数据进行专门的批次校正。

3.4 实验四：整合配对RNA-seq和ATAC-seq数据

为了验证UMINT的通用性，作者将其应用于一个包含配对RNA-seq和ATAC-seq的pbmc10k数据集。

UMAP可视化显示，单独使用RNA或ATAC数据都无法清晰地分离所有细胞类型，而经过UMINT整合后的嵌入则展现出非常清晰的聚类结构。聚类结果的定量评估（ARI=0.73, FMI=0.77）也证明了其高质量的整合效果。

这个实验成功地证明了，UMINT的框架能够灵活地应用于不同类型的多组学数据，而不仅仅是CITE-seq。