一种用于CITE-seq和单细胞RNA-seq数据整合以及细胞表面蛋白预测和插补的多用途深度学习方法.

0. TL; DR

sciPENN不仅能够整合多个CITE-seqscRNA-seq数据集,还能为scRNA-seq数据预测蛋白质表达、为CITE-seq数据插补缺失的蛋白质、量化预测和插补的不确定性、将细胞类型标签从CITE-seq参考迁移到scRNA-seq查询数据。

在多个数据集上的综合评估表明,sciPENN在蛋白质预测和插补的准确性上,显著优于Seurat 4totalVISOTA方法。同时,它的计算效率比竞争对手快一个数量级,展现了卓越的可扩展性。

1. 背景介绍

CITE-seq技术允许作者同时测量同一个细胞的转录组(RNA)和表面蛋白(protein)组,为我们以更高的分辨率解析细胞异质性打开了大门。蛋白质作为细胞功能的直接执行者,其表达信息为我们理解细胞信号和相互作用提供了RNA层面无法替代的视角。

然而,CITE-seq的广泛应用也伴随着一系列新的计算挑战:

  1. 成本与数据稀缺性: 生成CITE-seq数据的成本远高于常规的scRNA-seq。这导致作者通常拥有大量的scRNA-seq数据,但CITE-seq数据却相对稀少。一个自然的想法是:作者能否利用已有的CITE-seq数据作为参考,来为海量的scRNA-seq数据预测出其表面蛋白的表达谱?
  2. 批次效应: 与所有单细胞技术一样,当作者需要整合来自不同实验、不同供体的多个数据集时,批次效应是一个必须解决的难题。
  3. 蛋白质panel的不完全重叠: 这是CITE-seq数据整合中一个独特且棘手的挑战。不同的研究通常会使用包含不同抗体组合的蛋白质panel。当作者希望整合这些数据集时,如何处理那些在一个数据集中存在,而在另一个数据集中缺失的蛋白质?

现有的工具,如Seurat 4totalVI,虽然已经开始探索这些问题,但仍存在一些局限性:Seurat 4无法处理蛋白质panel不重叠的情况;而totalVI虽然理论上可以,但其在该场景下的性能尚未被充分验证。此外,这两者在处理大规模数据时,都面临着计算效率的瓶颈。

为了系统性地解决这三重挑战,作者开发了sciPENN。它旨在通过一个统一的、高效的深度学习框架,为CITE-seqscRNA-seq数据的整合与分析,提供一个一站式的解决方案。

2. sciPENN 方法

sciPENN的核心是一个精心设计的深度神经网络,它通过模块化的结构和审查损失函数,实现了其多功能的整合与预测能力。

2.1 模型架构

sciPENN的网络架构由一系列可重复使用的块(blocks)堆叠而成,主要包含一个输入块(Input Block)和多个前馈块(FeedForward Block),并结合了一个循环神经网络单元(RNN cell)来整合信息流。

输入块接收一个细胞的基因表达向量 $x$ 作为输入。通过一系列全连接层、BatchNormPReLU激活函数和Dropout,对输入进行初步的特征提取和变换。

前馈块结构与输入块类似,但用于处理中间层的嵌入向量。模型中的多个前馈块串联在一起,每个块的输出都会被送入一个共享的RNN单元。

RNN单元维护一个隐藏状态,该状态会根据每个前馈块的输出进行迭代更新。最后一个前馈块更新后的最终隐藏状态,被作为该细胞的最终嵌入,用于后续的预测和数据整合可视化。

最终的嵌入被送入三个独立的全连接层,分别用于预测三个目标:

2.2 损失函数

当作者需要整合多个蛋白质panel不完全相同的CITE-seq数据集时,作者首先将它们合并成一个大的蛋白质表达矩阵 $Y_{train}$。对于一个给定的细胞,那些在其原始数据集中未被测量的蛋白质,其表达值会被填充为0。

在计算损失函数时,sciPENN只考虑那些实际被测量过的蛋白质。对于一个细胞$i$和一个蛋白质$i$,如果蛋白质$i$在该细胞中被测量过,那么它的损失 $L_{ij}$ 会被正常计算并计入总损失;如果它未被测量过(即来自另一个数据集),那么它的损失贡献将被屏蔽,不参与反向传播。

\[L_i = \frac{1}{|P_i|} \sum_{j \in P_i} L_{ij}\]

其中,$P_i$ 是细胞$i$中被实际测量过的蛋白质集合。通过这种动态计算损失的方式,sciPENN能够灵活地处理每个细胞不同的有效蛋白质列表,从而实现了对多个部分重叠CITE-seq数据集的无缝整合。

sciPENN的损失函数包含两部分,分别对应蛋白质表达预测和细胞类型分类。

蛋白质表达损失 ($L_{prot}$)由两项组成:一项是预测均值与真实值之间的均方误差;另一项是分位数损失(Quantile Loss),用于同时预测多个分位数,以量化预测的不确定性。

\[L_{prot} = MSE(y, \hat{y}) + \frac{1}{k} \sum_{q \in Q} L_q(y, y_q)\]

细胞类型损失 ($L_{type}$) 是标准的分类交叉熵损失。

\[L_{type} = -\log(\text{Pr}(C=c_t))\]

总损失是这两项的和 $L = L_{prot} + L_{type}$。

3. 实验分析

作者通过五个精心设计的应用场景,对sciPENN的各项功能进行了全面的评估,并与Seurat 4totalVI进行了比较。

3.1 实验一:PBMC参考集到MALT查询集的预测

这是一个跨数据集预测任务,参考集(PBMC)和查询集(MALT)在细胞类型、测序深度等方面都存在巨大差异。

3.2 实验二:单核细胞数据集内的预测

作者在一个自己生成的、包含8个样本的单核细胞CITE-seq数据集上,进行了数据集内(4个样本训练,4个样本测试)的预测。

3.3 实验三:PBMC数据集内的预测与标签迁移

作者在一个大规模的PBMC数据集内进行了一半训练、一半测试的实验。

3.4 实验四:PBMC参考集到H1N1流感数据集的预测

这是一个中等难度的跨数据集预测任务。

3.5 实验五:整合两个部分重叠的COVID-19数据集

这是对sciPENN核心功能(处理部分重叠panel)的最直接验证。作者整合了两个总计近90万细胞的COVID-19 CITE-seq数据集,它们共享110种蛋白质,但各自有约37种独有的蛋白质。