单细胞多组学整合的无监督神经网络.

0. TL; DR

UMINT是用于单细胞多组学整合的无监督神经网络,采用了一个非循环的前馈神经网络架构,参数数量大幅减少。UMINT直接在预处理后的数据上操作,无需任何关于数据分布的先验假设。

作者将UMINT应用于多种健康和疾病(包括一种罕见的MALT淋巴瘤)的CITE-seq数据集。基准测试结果显示,UMINT在细胞聚类等任务上的性能优于Seurat v4, MOFA+, TotalVI以及多种基于自编码器的模型。

1. 背景介绍

单细胞多组学技术,如CITE-seqSHARE-seq,为我们同时观察同一个细胞的多个分子层面(如RNA和蛋白质)提供了前所未有的机会。这使得我们能够更精细地定义细胞身份,更深入地理解疾病的分子机制。当前的挑战主要来自以下几个方面:

  1. 数据内在的复杂性: 高维度、高稀疏性、高噪声以及不同测序平台引入的批次效应。
  2. 现有方法的局限性:
    • 线性模型的不足:像MOFA+这样基于矩阵分解的方法,其线性假设难以捕捉多组学数据中复杂的非线性结构。
    • 基于图的方法的依赖性: Seurat v4WNN方法虽然强大,但其效果依赖于能否准确构建一个加权的近邻图。
    • 深度学习模型的开销:基于自编码器(Autoencoder, AE)变分自编码器(Variational Autoencoder, VAE)的深度模型(如TotalVI, Multigrate)虽然表现出色,但它们通常包含大量的可训练参数,导致训练过程计算开销巨大。
    • 数据分布的假设:许多概率生成模型需要对输入数据的统计分布做出特定假设(如负二项分布),这限制了它们的通用性。

作者认为,领域内迫切需要一种鲁棒、高效、灵活的整合方法。它应该拥有轻量级的架构,计算成本低、不依赖于特定的数据分布假设、能够灵活地整合可变数量的组学模态。

2. UMINT 方法

UMINT的核心是一个非循环的前馈神经网络(feed-forward neural network),它包含一个编码器(encoder)和一个解码器(decoder)。其最独特的设计在于其模块化的输入和编码层。

UMINT的编码器负责将多个模态的数据整合并投影到一个低维的潜在空间。假设有$m$种模态的数据 $X_1, X_2, \ldots, X_m$。UMINT的输入层包含$m$个独立的模块,每个模块分别接收一种模态的数据。每个模块的神经元数量等于其对应模态的特征维度 $d_1, d_2, \ldots, d_m$。

输入层之后是一个模态编码层,它同样包含$m$个模块。输入层的第$i$个模块,只与编码层的第$i$个模块进行全连接。这意味着,在被整合之前,每种模态的数据都会先经过一个独立的、模态特异性的非线性变换。

\[a_i^2 = W_i^1 h_i^1 + b_i^1 \quad h_i^2 = \text{ReLU}(a_i^2)\]

来自模态编码层的所有$m$个模块的输出,被完全连接到一个共享的瓶颈层。瓶颈层的输出,就是最终的、融合了所有模态信息的低维潜在嵌入。

\[a_1^3 = \sum_{i=1}^m W_i^2 h_i^2 + b_1^2 \quad h_1^3 = \text{ReLU}(a_1^3)\]

整个编码过程可以概括为:

\[h_1^3 = U_{Encoder}(x_1, x_2, \ldots, x_m)\]

解码器的结构与编码器完全对称,其目标是从低维的潜在嵌入中,重构出原始的多种模态数据。

UMINT的训练目标非常直接:最小化一个加权的重构误差,并辅以L1L2正则化项。

\[L_{UMINT} = \frac{1}{n} \sum_{i=1}^m \lambda_i \| X_i - \tilde{X}_i \|^2 + \sum_{i=1}^m \sum_{j=2}^4 (\alpha \| h_i^j \|_1 + \beta \| W_i^j \|^2)\]

$L_{UMINT}$的核心是最小化原始数据 $X_i$ 与重构数据 $\tilde{X}_i$ 之间的均方误差。平衡参数 $\lambda_i$ 是一个重要的超参数,用于平衡不同模态在总损失中的贡献。这可以有效避免由于不同模态的特征维度差异巨大(例如,RNA的数万基因 vs. 蛋白质的数百个ADT)而导致的训练偏向。L1/L2正则化用于控制模型复杂度,防止过拟合。

UMINT的模块化设计使其在参数数量上具有巨大优势。对于一个传统的AE,其第一层的参数数量大约是 $(\sum d_i) \times (\sum n_i)$。而对于UMINT,则是 $\sum (d_i \times n_i)$。当模态数大于1时,可以证明UMINT的参数量远小于一个结构相似的传统AE

\[\text{TP}_{Reduction} = \text{TP}_{AE} - \text{TP}_{UMINT} = \sum_{i=1}^m d_i (\sum_{j=1, j \ne i}^m n_j)\]

更少的参数意味着更快的训练速度和更低的计算资源需求。

3. 实验分析

作者在一系列健康和疾病的CITE-seq数据集以及一个配对的RNA/ATAC数据集上,对UMINT的性能进行了全面的评估。

3.1 实验一:与自编码器(AE)的对比

作者首先将UMINT与标准的AE及其变体(Denoising AE, Sparse AE)进行了直接比较。

在计算效率上,UMINT的训练时间远快于所有基于AE的模型,这证实了其轻量级架构的优势。

在数据重构能力上,UMINT的整体重构分数(Overall Reconstruction Score, ORS)在所有三个数据集(cbmc8k, MALT10k, bmcite30k)上均显著高于所有AE模型。

在细胞聚类性能上(使用k-means或层次聚类),基于UMINT潜在嵌入的聚类结果,其ARIFMI得分在大多数情况下都优于基于AE模型嵌入的结果。

这些结果充分证明,UMINT的新颖架构在效率和性能上均超越了传统的自编码器方法。

3.2 实验二:与SOTA多组学整合方法的比较

接下来,作者将UMINT与三种代表不同技术路线的SOTA方法进行了比较:Seurat v4(基于图)、MOFA+(基于矩阵分解)和TotalVI(基于VAE)。

在所有三个数据集上,UMINT在聚类准确性(ARIFMI)上都取得了最佳性能,全面优于Seurat v4, MOFA+TotalVI。特别是在MALT10k这个罕见病数据集中,UMINT的优势尤为明显,这凸显了其在处理复杂、非典型疾病数据方面的潜力。

3.3 实验三:批次效应处理能力

作者在一个包含多个批次的CITE-seq数据集(kotliarov50k)上,测试了UMINT处理批次效应的能力。作者进行了两组实验:一组是在输入UMINT前,先用Seurat v4SCTransform进行批次校正;另一组则直接将未经校正的数据输入UMINT

比较两种情况下的聚类性能,作者发现,即使输入数据未经批次校正,UMINT学习到的嵌入依然能取得与经过校正后相当的聚类准确率(ARI, FMI, SilhouetteDB index得分非常接近)。这表明UMINT的整合过程本身具有一定的批次校正能力。

UMAP可视化显示,如果输入数据未经校正,UMINT的嵌入空间中仍然存在一定的批次分离现象。这说明,虽然UMINT能提取出主要的生物学信号用于聚类,但它并非一个专门的批次校正工具。为了达到最佳的批次混合效果,建议在使用UMINT前,先对数据进行专门的批次校正。

3.4 实验四:整合配对RNA-seq和ATAC-seq数据

为了验证UMINT的通用性,作者将其应用于一个包含配对RNA-seqATAC-seqpbmc10k数据集。

UMAP可视化显示,单独使用RNAATAC数据都无法清晰地分离所有细胞类型,而经过UMINT整合后的嵌入则展现出非常清晰的聚类结构。聚类结果的定量评估(ARI=0.73, FMI=0.77)也证明了其高质量的整合效果。

这个实验成功地证明了,UMINT的框架能够灵活地应用于不同类型的多组学数据,而不仅仅是CITE-seq