NeurIPS 2021单细胞多组学竞赛复盘.
0. TL; DR
为了激发多组学分析算法的创新,作者在NeurIPS 2021会议上组织了一场单细胞多组学数据整合竞赛。作者为此构建了首个专为基准测试而设计的多组学数据集,并定义了该领域的三大核心计算任务:
- 模态预测 (Predicting one modality from another): 利用一种模态数据预测另一种模态。
- 模态匹配 (Matching cells between modalities): 为来自同一细胞但被打乱的不同模态测量值重新“配对”。
- 联合嵌入 (Jointly learning representations): 学习一个能够融合所有模态信息、去除批次效应的低维细胞表征。
作者为每个任务都指定了明确的评估指标,并开发了一套基于云端的自动化算法评估流程。在为期三个月的竞赛中,作者收到了来自280名参赛者的超过2600份解决方案。作者所构建的数据集、评估框架和所有优胜者的代码,都已被整合到单细胞分析开放难题(Open Problems for Single-Cell Analysis)这个长期基准测试平台中。
2. 竞赛设置
作者严格遵循通用任务框架(Common Task Framework, CTF)的原则,致力于提供一个公平、可重复的竞技平台,为竞赛搭建了包含数据集、任务定义和评分流程在内的完整框架。
2.1 数据集 (Dataset)
本次竞赛的一大核心贡献是构建了一个专为基准测试设计的、反映真实世界挑战的多组学数据集。作者通过大规模合作,收集了来自12位捐赠者的骨髓样本,并利用两种前沿的多组学技术进行处理:
- CITE-seq: 同时测量单细胞的基因表达(GEX)和表面蛋白水平(ADT)。
- 10x Multiome: 同时测量单个细胞核的染色质可及性(ATAC)和基因表达(GEX)。
最终,作者获得了包含约9万个细胞的CITE-seq数据和约7万个细胞的Multiome数据。为了模拟真实世界中数据整合的复杂性,作者特意将数据生成过程分布在4个不同的实验中心,从而引入了捐赠者和实验中心的嵌套批次效应(Nested Batch Effect)。
2.2 任务定义 (Tasks)
作者定义了三个精确的、可量化评估的核心任务。
- 任务1:模态预测 (Predicting one modality from another)
- 目标: 利用一种模态的数据,准确预测另一种模态的测量值。例如,从GEX预测ADT。
- 动机: 在此任务上表现优异的算法,可能学习到了控制基因信息流动的复杂调控规则。
- 评估指标: 均方根误差 (Root Mean Squared Error, RMSE)。
- 任务2:模态匹配 (Matching cells between modalities)
- 目标: 对于同时测量的多组学数据,在隐藏其一一对应关系后,通过计算重新准确地找到每个细胞的“另一半”。
- 动机: 大多数存量单细胞数据都是单模态的。能够精准对齐不同模态数据的算法,将极大地释放这些存量数据的价值。
- 评估指标: 正确配对的权重总和 (Sum of weights in correct correspondences)。这个指标衡量了模型为正确配对赋予的概率总和,越高越好。
- 任务3:联合嵌入 (Jointly learning representations of cellular identity)
- 目标: 学习一个低维(5-100维)的细胞嵌入表示,这个表示需要能够融合所有模态的互补信息,同时去除批次效应。
- 动机: 一个高质量的联合嵌入是所有下游分析(如细胞类型鉴定、轨迹推断)的基础。
- 评估指标: 6个子指标的平均分。这些指标分为两类:
- 生物学保留 (Biology Conservation): 评估嵌入保留了多少真实的生物学结构(如细胞类型)。
- 批次校正 (Batch Removal): 评估嵌入去除了多少技术性的批次效应。
3. 结果与分析
本次竞赛吸引了来自全球的280多名参赛者,组成了172支队伍,总共提交了超过2600个模型。作者对优胜方法和总体趋势进行了深入分析。
3.1 总体趋势与反馈 (General trends and feedback)
- 工具与框架: 在单细胞分析工具包中,
Scanpy最受欢迎(46%)。在深度学习框架方面,PyTorch的使用频率是TensorFlow的两倍,这再次印证了PyTorch在科研领域的流行趋势。 - 数据交付与截止日期: 由于供应链问题,作者不得不调整数据发布和比赛截止日期,这是参赛者反馈中最主要的批评。教训:对于依赖复杂实验的数据竞赛,必须预留充足的时间缓冲,并尽可能避免更改关键时间节点。
- 评估基础设施: 竞赛后期提交量激增,导致评估服务器周转时间过长,影响了参赛体验。教训:必须为竞赛的最后阶段预留并仔细评估计算资源,以应对提交高峰。
- 数据集的价值: 60%的受访者表示计划在赛后继续使用作者提供的基准数据集,这凸显了构建一个高质量、专为基准测试设计的数据集的重要性。
3.2 任务1:模态预测
模态预测共收到1393份提交。
⚪ 结果与分析
在大多数子任务中(如GEX→ATAC),绝大多数提交方案的性能都与基线模型(baseline)非常接近,没有出现革命性的提升(图a)。这可能是因为:
- ATAC数据的稀疏性: 对于ATAC数据,由于其高度稀疏和二值化,一个简单地预测“全零”的模型也能在RMSE指标上取得不错的成绩。这表明RMSE可能不是评估ATAC预测任务的最佳指标,未来或许应考虑对正确预测的开放区域给予更高权重。
- 批次效应的干扰: 数据中存在的站点批次效应,限制了模型从训练数据到测试数据(来自未见过的站点)的泛化能力。
在ATAC→GEX和GEX→ADT两个子任务中,出现了一些显著优于基线的方法。这些优胜方法大多采用了浅层(3-5层)的深度学习模型,但并没有某一种特定架构表现出绝对优势(图b)。
由于性能普遍相近,模型的随机性对最终排名影响很大。例如,作者将总分第一名(DANCE团队)的模型重复运行四次,其排名就在1-9名之间波动(图c)。

⚪ 优胜方法
- ATAC→GEX 冠军 (Cajal团队): 使用了一个4层的深度神经网络,其特色在于输入特征的选择。他们利用一个带注释的参考数据集,通过t检验筛选出细胞类型特异性的、差异可及的ATAC peaks作为输入特征,并辅以总count等统计特征。
- GEX→ADT 冠军 (Guanlab-dengkw团队): 出人意料地,该团队并未使用深度学习,而是采用了核岭回归(Kernel Ridge Regression, KRR)。他们首先对输入和输出数据都进行SVD降维,然后在降维后的空间中训练KRR模型。为了处理大规模数据,他们还采用了随机采样和模型集成的策略。
3.3 任务2:模态匹配
模态匹配共收到462份提交。
⚪ 结果与分析
该任务中CLUE团队的方法在所有子任务中都取得了压倒性的胜利,与其他方法拉开了显著的差距(图a)。作者发现,如果将任务难度降低为在细胞类型层面进行匹配,那么前几名的方法性能差距并不大。然而,在单细胞层面的精准匹配上,CLUE的性能比第二梯队高出2-5倍(图c, d)。这表明CLUE成功地利用了超越已知细胞类型注释的、更深层次的生物学结构来进行匹配。
令人惊讶的是,表现最好的两个方法(CLUE和Novel团队)都没有利用任何关于特征间关系的先验知识(如peak与基因的距离)。这暗示着,未来如果能有效融入这些信息,匹配精度或许还有进一步提升的空间。

⚪ 优胜方法:CLUE
CLUE (Cross-Linked Universal Embedding) 的核心是一个多模态变分自编码器(VAE)。其关键创新在于,它没有将所有模态强制压缩到一个单一的共享潜在空间,而是将潜在空间划分为多个模态特异性的子空间。每个输入细胞(无论来自哪个模态)都会被一个编码器矩阵投影到所有的模态特异性子空间中。最终的联合嵌入由所有这些子空间的拼接而成。这种设计使得CLUE能够同时保留模态间的共享信息和每个模态独有的特异性信息,从而极大地提升了匹配的准确性。
3.4 任务3:联合嵌入
联合嵌入共收到756份提交。
⚪ 结果与分析
该任务的提交方案性能分布较广,有14支队伍的表现优于基线MNN方法(图a)。优胜方法同样倾向于使用浅层神经网络(图b)。
作者发现,竞赛中使用的两个批次校正指标(batchASW和graph connectivity)并不能充分地区分不同方法的性能,特别是未能有效评估数据中存在的嵌套批次效应。
赛后,作者使用更能反映站点批次效应的指标(如iLISI score)重新评估了提交方案。结果显示,不同指标会产生不同的方法排名(图c-e)。例如,原比赛中排名靠前的方法,在考虑站点批次效应时可能表现不佳。教训:在设计包含复杂批次结构的竞赛时,必须选择能够专门评估这种结构的指标。

⚪ 优胜方法 (Amateur团队)
Amateur团队的方法JAE(joint embedding with a regularized autoencoder)受到scDEC模型的启发,其核心是在一个自编码器框架中,显式地利用已知的细胞注释信息来约束潜在空间的结构。JAE将多种模态的数据(经过SVD降维后)拼接起来作为输入。其损失函数是一个多任务损失,包括重构损失、细胞类型预测损失、细胞周期分数回归损失、批次校正损失。通过这些正则项,JAE的潜在空间被塑造成一个既能恢复原始数据,又能编码多种生物学和技术信息的结构。