一种用于CITE-seq和单细胞RNA-seq数据整合以及细胞表面蛋白预测和插补的多用途深度学习方法.
0. TL; DR
sciPENN不仅能够整合多个CITE-seq和scRNA-seq数据集,还能为scRNA-seq数据预测蛋白质表达、为CITE-seq数据插补缺失的蛋白质、量化预测和插补的不确定性、将细胞类型标签从CITE-seq参考迁移到scRNA-seq查询数据。
在多个数据集上的综合评估表明,sciPENN在蛋白质预测和插补的准确性上,显著优于Seurat 4和totalVI等SOTA方法。同时,它的计算效率比竞争对手快一个数量级,展现了卓越的可扩展性。
1. 背景介绍
CITE-seq技术允许作者同时测量同一个细胞的转录组(RNA)和表面蛋白(protein)组,为我们以更高的分辨率解析细胞异质性打开了大门。蛋白质作为细胞功能的直接执行者,其表达信息为我们理解细胞信号和相互作用提供了RNA层面无法替代的视角。
然而,CITE-seq的广泛应用也伴随着一系列新的计算挑战:
- 成本与数据稀缺性: 生成CITE-seq数据的成本远高于常规的scRNA-seq。这导致作者通常拥有大量的scRNA-seq数据,但CITE-seq数据却相对稀少。一个自然的想法是:作者能否利用已有的CITE-seq数据作为参考,来为海量的scRNA-seq数据预测出其表面蛋白的表达谱?
- 批次效应: 与所有单细胞技术一样,当作者需要整合来自不同实验、不同供体的多个数据集时,批次效应是一个必须解决的难题。
- 蛋白质panel的不完全重叠: 这是CITE-seq数据整合中一个独特且棘手的挑战。不同的研究通常会使用包含不同抗体组合的蛋白质panel。当作者希望整合这些数据集时,如何处理那些在一个数据集中存在,而在另一个数据集中缺失的蛋白质?
现有的工具,如Seurat 4和totalVI,虽然已经开始探索这些问题,但仍存在一些局限性:Seurat 4无法处理蛋白质panel不重叠的情况;而totalVI虽然理论上可以,但其在该场景下的性能尚未被充分验证。此外,这两者在处理大规模数据时,都面临着计算效率的瓶颈。
为了系统性地解决这三重挑战,作者开发了sciPENN。它旨在通过一个统一的、高效的深度学习框架,为CITE-seq和scRNA-seq数据的整合与分析,提供一个一站式的解决方案。
2. sciPENN 方法
sciPENN的核心是一个精心设计的深度神经网络,它通过模块化的结构和审查损失函数,实现了其多功能的整合与预测能力。

2.1 模型架构
sciPENN的网络架构由一系列可重复使用的块(blocks)堆叠而成,主要包含一个输入块(Input Block)和多个前馈块(FeedForward Block),并结合了一个循环神经网络单元(RNN cell)来整合信息流。
输入块接收一个细胞的基因表达向量 $x$ 作为输入。通过一系列全连接层、BatchNorm、PReLU激活函数和Dropout,对输入进行初步的特征提取和变换。
前馈块结构与输入块类似,但用于处理中间层的嵌入向量。模型中的多个前馈块串联在一起,每个块的输出都会被送入一个共享的RNN单元。
RNN单元维护一个隐藏状态,该状态会根据每个前馈块的输出进行迭代更新。最后一个前馈块更新后的最终隐藏状态,被作为该细胞的最终嵌入,用于后续的预测和数据整合可视化。
最终的嵌入被送入三个独立的全连接层,分别用于预测三个目标:
- 蛋白质均值表达 $y(x; W)$
- 蛋白质表达的分位数 $\sigma(x; W)$(用于不确定性量化)
- 细胞类型的类别概率 $p(x; W)$
2.2 损失函数
当作者需要整合多个蛋白质panel不完全相同的CITE-seq数据集时,作者首先将它们合并成一个大的蛋白质表达矩阵 $Y_{train}$。对于一个给定的细胞,那些在其原始数据集中未被测量的蛋白质,其表达值会被填充为0。
在计算损失函数时,sciPENN只考虑那些实际被测量过的蛋白质。对于一个细胞$i$和一个蛋白质$i$,如果蛋白质$i$在该细胞中被测量过,那么它的损失 $L_{ij}$ 会被正常计算并计入总损失;如果它未被测量过(即来自另一个数据集),那么它的损失贡献将被屏蔽,不参与反向传播。
\[L_i = \frac{1}{|P_i|} \sum_{j \in P_i} L_{ij}\]其中,$P_i$ 是细胞$i$中被实际测量过的蛋白质集合。通过这种动态计算损失的方式,sciPENN能够灵活地处理每个细胞不同的有效蛋白质列表,从而实现了对多个部分重叠CITE-seq数据集的无缝整合。
sciPENN的损失函数包含两部分,分别对应蛋白质表达预测和细胞类型分类。
蛋白质表达损失 ($L_{prot}$)由两项组成:一项是预测均值与真实值之间的均方误差;另一项是分位数损失(Quantile Loss),用于同时预测多个分位数,以量化预测的不确定性。
\[L_{prot} = MSE(y, \hat{y}) + \frac{1}{k} \sum_{q \in Q} L_q(y, y_q)\]细胞类型损失 ($L_{type}$) 是标准的分类交叉熵损失。
\[L_{type} = -\log(\text{Pr}(C=c_t))\]总损失是这两项的和 $L = L_{prot} + L_{type}$。
3. 实验分析
作者通过五个精心设计的应用场景,对sciPENN的各项功能进行了全面的评估,并与Seurat 4和totalVI进行了比较。
3.1 实验一:PBMC参考集到MALT查询集的预测
这是一个跨数据集预测任务,参考集(PBMC)和查询集(MALT)在细胞类型、测序深度等方面都存在巨大差异。
- 图a (数据整合): 尽管存在巨大差异,sciPENN在整合两个数据集方面表现最好,实现了部分混合。
- 图b (预测精度): sciPENN在蛋白质预测准确性上全面领先,无论是在皮尔逊相关性还是均方根误差上都取得了最佳性能。
- 图c (不确定性量化): sciPENN的预测区间覆盖率远优于totalVI。例如,其名义80%的预测区间,实际覆盖率达到了44.6%,而totalVI仅为18.3%。
- 图d (Marker蛋白恢复): sciPENN能最准确地恢复marker蛋白(如CD8a)的表达模式,而totalVI和Seurat 4则出现了不同程度的错误预测。

3.2 实验二:单核细胞数据集内的预测
作者在一个自己生成的、包含8个样本的单核细胞CITE-seq数据集上,进行了数据集内(4个样本训练,4个样本测试)的预测。
- 图a (数据整合): sciPENN实现了对训练集和测试集的完美混合。
- 图b (预测精度): 在RMSE指标上,sciPENN再次领先。
- 图c (不确定性量化): sciPENN的80%预测区间实现了71.7%的覆盖率,表现合理;而totalVI仅为21.2%,其不确定性估计存在严重偏差。
- 图d (Marker蛋白恢复): 所有三种方法都能较好地恢复CD14, CD16等关键marker的表达模式。

3.3 实验三:PBMC数据集内的预测与标签迁移
作者在一个大规模的PBMC数据集内进行了一半训练、一半测试的实验。
- 图a (Marker蛋白趋势恢复): sciPENN最准确地恢复了CD8 T细胞亚群的marker蛋白(如CD45RA, CD44-2)的表达趋势。
- 图b (标签迁移): 在将细胞类型标签从训练集迁移到测试集的任务中,sciPENN的准确率达到了83.9%,显著高于Seurat 4的78.5%。
- 图c (刺激响应生物标志物恢复): 作者进一步测试了恢复疫苗刺激后CD169蛋白表达动态变化的能力。sciPENN清晰地重现了CD169在接种后第3天表达量达到峰值的模式,其统计显著性远高于其他两种方法。

3.4 实验四:PBMC参考集到H1N1流感数据集的预测
这是一个中等难度的跨数据集预测任务。
- 图a (数据整合): sciPENN和totalVI都能较好地混合两个数据集,而Seurat 4效果不佳。
- 图b (预测精度): sciPENN和totalVI的预测相关性相当,但sciPENN的RMSE更低。
- 图c (不确定性量化): sciPENN再次在不确定性量化上展现了巨大优势,其80%预测区间的覆盖率(63.7%)远高于totalVI(11.1%)。

3.5 实验五:整合两个部分重叠的COVID-19数据集
这是对sciPENN核心功能(处理部分重叠panel)的最直接验证。作者整合了两个总计近90万细胞的COVID-19 CITE-seq数据集,它们共享110种蛋白质,但各自有约37种独有的蛋白质。
- 图a (数据整合): sciPENN高效地将两个大规模数据集整合到了一个共同的嵌入空间中,并实现了良好的混合。而totalVI则完全失败。
- 图b (蛋白质插补精度): sciPENN能够为每个数据集插补其缺失的蛋白质。在两个方向的插补任务中,其准确性(相关性和RMSE)都显著优于totalVI。
- 图c (插补结果可视化): Feature plot直观地显示,sciPENN插补的蛋白表达模式与真实模式高度吻合。
