一种用于CITE-seq和单细胞RNA-seq数据整合以及细胞表面蛋白预测和插补的多用途深度学习方法.

paper：A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation

0. TL; DR

sciPENN不仅能够整合多个CITE-seq和scRNA-seq数据集，还能为scRNA-seq数据预测蛋白质表达、为CITE-seq数据插补缺失的蛋白质、量化预测和插补的不确定性、将细胞类型标签从CITE-seq参考迁移到scRNA-seq查询数据。

在多个数据集上的综合评估表明，sciPENN在蛋白质预测和插补的准确性上，显著优于Seurat 4和totalVI等SOTA方法。同时，它的计算效率比竞争对手快一个数量级，展现了卓越的可扩展性。

1. 背景介绍

CITE-seq技术允许作者同时测量同一个细胞的转录组（RNA）和表面蛋白（protein）组，为我们以更高的分辨率解析细胞异质性打开了大门。蛋白质作为细胞功能的直接执行者，其表达信息为我们理解细胞信号和相互作用提供了RNA层面无法替代的视角。

然而，CITE-seq的广泛应用也伴随着一系列新的计算挑战：

成本与数据稀缺性：生成CITE-seq数据的成本远高于常规的scRNA-seq。这导致作者通常拥有大量的scRNA-seq数据，但CITE-seq数据却相对稀少。一个自然的想法是：作者能否利用已有的CITE-seq数据作为参考，来为海量的scRNA-seq数据预测出其表面蛋白的表达谱？
批次效应：与所有单细胞技术一样，当作者需要整合来自不同实验、不同供体的多个数据集时，批次效应是一个必须解决的难题。
蛋白质panel的不完全重叠：这是CITE-seq数据整合中一个独特且棘手的挑战。不同的研究通常会使用包含不同抗体组合的蛋白质panel。当作者希望整合这些数据集时，如何处理那些在一个数据集中存在，而在另一个数据集中缺失的蛋白质？

现有的工具，如Seurat 4和totalVI，虽然已经开始探索这些问题，但仍存在一些局限性：Seurat 4无法处理蛋白质panel不重叠的情况；而totalVI虽然理论上可以，但其在该场景下的性能尚未被充分验证。此外，这两者在处理大规模数据时，都面临着计算效率的瓶颈。

为了系统性地解决这三重挑战，作者开发了sciPENN。它旨在通过一个统一的、高效的深度学习框架，为CITE-seq和scRNA-seq数据的整合与分析，提供一个一站式的解决方案。

2. sciPENN 方法

sciPENN的核心是一个精心设计的深度神经网络，它通过模块化的结构和审查损失函数，实现了其多功能的整合与预测能力。

2.1 模型架构

sciPENN的网络架构由一系列可重复使用的块（blocks）堆叠而成，主要包含一个输入块（Input Block）和多个前馈块（FeedForward Block），并结合了一个循环神经网络单元（RNN cell）来整合信息流。

输入块接收一个细胞的基因表达向量 $x$ 作为输入。通过一系列全连接层、BatchNorm、PReLU激活函数和Dropout，对输入进行初步的特征提取和变换。

前馈块结构与输入块类似，但用于处理中间层的嵌入向量。模型中的多个前馈块串联在一起，每个块的输出都会被送入一个共享的RNN单元。

RNN单元维护一个隐藏状态，该状态会根据每个前馈块的输出进行迭代更新。最后一个前馈块更新后的最终隐藏状态，被作为该细胞的最终嵌入，用于后续的预测和数据整合可视化。

最终的嵌入被送入三个独立的全连接层，分别用于预测三个目标：

蛋白质均值表达 $y(x; W)$
蛋白质表达的分位数 $\sigma(x; W)$（用于不确定性量化）
细胞类型的类别概率 $p(x; W)$

2.2 损失函数

当作者需要整合多个蛋白质panel不完全相同的CITE-seq数据集时，作者首先将它们合并成一个大的蛋白质表达矩阵 $Y_{train}$。对于一个给定的细胞，那些在其原始数据集中未被测量的蛋白质，其表达值会被填充为0。

在计算损失函数时，sciPENN只考虑那些实际被测量过的蛋白质。对于一个细胞$i$和一个蛋白质$i$，如果蛋白质$i$在该细胞中被测量过，那么它的损失 $L_{ij}$ 会被正常计算并计入总损失；如果它未被测量过（即来自另一个数据集），那么它的损失贡献将被屏蔽，不参与反向传播。

\[L_i = \frac{1}{|P_i|} \sum_{j \in P_i} L_{ij}\]

其中，$P_i$ 是细胞$i$中被实际测量过的蛋白质集合。通过这种动态计算损失的方式，sciPENN能够灵活地处理每个细胞不同的有效蛋白质列表，从而实现了对多个部分重叠CITE-seq数据集的无缝整合。

sciPENN的损失函数包含两部分，分别对应蛋白质表达预测和细胞类型分类。

蛋白质表达损失 ($L_{prot}$)由两项组成：一项是预测均值与真实值之间的均方误差；另一项是分位数损失（Quantile Loss），用于同时预测多个分位数，以量化预测的不确定性。

\[L_{prot} = MSE(y, \hat{y}) + \frac{1}{k} \sum_{q \in Q} L_q(y, y_q)\]

细胞类型损失 ($L_{type}$) 是标准的分类交叉熵损失。

\[L_{type} = -\log(\text{Pr}(C=c_t))\]

总损失是这两项的和 $L = L_{prot} + L_{type}$。

3. 实验分析

作者通过五个精心设计的应用场景，对sciPENN的各项功能进行了全面的评估，并与Seurat 4和totalVI进行了比较。

3.1 实验一：PBMC参考集到MALT查询集的预测

这是一个跨数据集预测任务，参考集（PBMC）和查询集（MALT）在细胞类型、测序深度等方面都存在巨大差异。

图a (数据整合): 尽管存在巨大差异，sciPENN在整合两个数据集方面表现最好，实现了部分混合。
图b (预测精度): sciPENN在蛋白质预测准确性上全面领先，无论是在皮尔逊相关性还是均方根误差上都取得了最佳性能。
图c (不确定性量化): sciPENN的预测区间覆盖率远优于totalVI。例如，其名义80%的预测区间，实际覆盖率达到了44.6%，而totalVI仅为18.3%。
图d (Marker蛋白恢复): sciPENN能最准确地恢复marker蛋白（如CD8a）的表达模式，而totalVI和Seurat 4则出现了不同程度的错误预测。

3.2 实验二：单核细胞数据集内的预测

作者在一个自己生成的、包含8个样本的单核细胞CITE-seq数据集上，进行了数据集内（4个样本训练，4个样本测试）的预测。

图a (数据整合): sciPENN实现了对训练集和测试集的完美混合。
图b (预测精度): 在RMSE指标上，sciPENN再次领先。
图c (不确定性量化): sciPENN的80%预测区间实现了71.7%的覆盖率，表现合理；而totalVI仅为21.2%，其不确定性估计存在严重偏差。
图d (Marker蛋白恢复): 所有三种方法都能较好地恢复CD14, CD16等关键marker的表达模式。

3.3 实验三：PBMC数据集内的预测与标签迁移

作者在一个大规模的PBMC数据集内进行了一半训练、一半测试的实验。

图a (Marker蛋白趋势恢复): sciPENN最准确地恢复了CD8 T细胞亚群的marker蛋白（如CD45RA, CD44-2）的表达趋势。
图b (标签迁移): 在将细胞类型标签从训练集迁移到测试集的任务中，sciPENN的准确率达到了83.9%，显著高于Seurat 4的78.5%。
图c (刺激响应生物标志物恢复): 作者进一步测试了恢复疫苗刺激后CD169蛋白表达动态变化的能力。sciPENN清晰地重现了CD169在接种后第3天表达量达到峰值的模式，其统计显著性远高于其他两种方法。

3.4 实验四：PBMC参考集到H1N1流感数据集的预测

这是一个中等难度的跨数据集预测任务。

图a (数据整合): sciPENN和totalVI都能较好地混合两个数据集，而Seurat 4效果不佳。
图b (预测精度): sciPENN和totalVI的预测相关性相当，但sciPENN的RMSE更低。
图c (不确定性量化): sciPENN再次在不确定性量化上展现了巨大优势，其80%预测区间的覆盖率（63.7%）远高于totalVI（11.1%）。

3.5 实验五：整合两个部分重叠的COVID-19数据集

这是对sciPENN核心功能（处理部分重叠panel）的最直接验证。作者整合了两个总计近90万细胞的COVID-19 CITE-seq数据集，它们共享110种蛋白质，但各自有约37种独有的蛋白质。

图a (数据整合): sciPENN高效地将两个大规模数据集整合到了一个共同的嵌入空间中，并实现了良好的混合。而totalVI则完全失败。
图b (蛋白质插补精度): sciPENN能够为每个数据集插补其缺失的蛋白质。在两个方向的插补任务中，其准确性（相关性和RMSE）都显著优于totalVI。
图c (插补结果可视化): Feature plot直观地显示，sciPENN插补的蛋白表达模式与真实模式高度吻合。