NeurIPS 2021单细胞多组学竞赛复盘.

0. TL; DR

为了激发多组学分析算法的创新,作者在NeurIPS 2021会议上组织了一场单细胞多组学数据整合竞赛。作者为此构建了首个专为基准测试而设计的多组学数据集,并定义了该领域的三大核心计算任务:

  1. 模态预测 (Predicting one modality from another): 利用一种模态数据预测另一种模态。
  2. 模态匹配 (Matching cells between modalities): 为来自同一细胞但被打乱的不同模态测量值重新“配对”。
  3. 联合嵌入 (Jointly learning representations): 学习一个能够融合所有模态信息、去除批次效应的低维细胞表征。

作者为每个任务都指定了明确的评估指标,并开发了一套基于云端的自动化算法评估流程。在为期三个月的竞赛中,作者收到了来自280名参赛者的超过2600份解决方案。作者所构建的数据集、评估框架和所有优胜者的代码,都已被整合到单细胞分析开放难题(Open Problems for Single-Cell Analysis)这个长期基准测试平台中。

2. 竞赛设置

作者严格遵循通用任务框架(Common Task Framework, CTF)的原则,致力于提供一个公平、可重复的竞技平台,为竞赛搭建了包含数据集、任务定义和评分流程在内的完整框架。

2.1 数据集 (Dataset)

本次竞赛的一大核心贡献是构建了一个专为基准测试设计的、反映真实世界挑战的多组学数据集。作者通过大规模合作,收集了来自12位捐赠者的骨髓样本,并利用两种前沿的多组学技术进行处理:

最终,作者获得了包含约9万个细胞的CITE-seq数据和约7万个细胞的Multiome数据。为了模拟真实世界中数据整合的复杂性,作者特意将数据生成过程分布在4个不同的实验中心,从而引入了捐赠者和实验中心的嵌套批次效应(Nested Batch Effect)。

2.2 任务定义 (Tasks)

作者定义了三个精确的、可量化评估的核心任务。

3. 结果与分析

本次竞赛吸引了来自全球的280多名参赛者,组成了172支队伍,总共提交了超过2600个模型。作者对优胜方法和总体趋势进行了深入分析。

3.2 任务1:模态预测

模态预测共收到1393份提交。

⚪ 结果与分析

在大多数子任务中(如GEX→ATAC),绝大多数提交方案的性能都与基线模型(baseline)非常接近,没有出现革命性的提升(图a)。这可能是因为:

  1. ATAC数据的稀疏性: 对于ATAC数据,由于其高度稀疏和二值化,一个简单地预测“全零”的模型也能在RMSE指标上取得不错的成绩。这表明RMSE可能不是评估ATAC预测任务的最佳指标,未来或许应考虑对正确预测的开放区域给予更高权重。
  2. 批次效应的干扰: 数据中存在的站点批次效应,限制了模型从训练数据到测试数据(来自未见过的站点)的泛化能力。

ATAC→GEXGEX→ADT两个子任务中,出现了一些显著优于基线的方法。这些优胜方法大多采用了浅层(3-5层)的深度学习模型,但并没有某一种特定架构表现出绝对优势(图b)。

由于性能普遍相近,模型的随机性对最终排名影响很大。例如,作者将总分第一名(DANCE团队)的模型重复运行四次,其排名就在1-9名之间波动(图c)。

⚪ 优胜方法

3.3 任务2:模态匹配

模态匹配共收到462份提交。

⚪ 结果与分析

该任务中CLUE团队的方法在所有子任务中都取得了压倒性的胜利,与其他方法拉开了显著的差距(图a)。作者发现,如果将任务难度降低为在细胞类型层面进行匹配,那么前几名的方法性能差距并不大。然而,在单细胞层面的精准匹配上,CLUE的性能比第二梯队高出2-5倍(图c, d)。这表明CLUE成功地利用了超越已知细胞类型注释的、更深层次的生物学结构来进行匹配。

令人惊讶的是,表现最好的两个方法(CLUENovel团队)都没有利用任何关于特征间关系的先验知识(如peak与基因的距离)。这暗示着,未来如果能有效融入这些信息,匹配精度或许还有进一步提升的空间。

⚪ 优胜方法:CLUE

CLUE (Cross-Linked Universal Embedding) 的核心是一个多模态变分自编码器(VAE)。其关键创新在于,它没有将所有模态强制压缩到一个单一的共享潜在空间,而是将潜在空间划分为多个模态特异性的子空间。每个输入细胞(无论来自哪个模态)都会被一个编码器矩阵投影到所有的模态特异性子空间中。最终的联合嵌入由所有这些子空间的拼接而成。这种设计使得CLUE能够同时保留模态间的共享信息和每个模态独有的特异性信息,从而极大地提升了匹配的准确性。

3.4 任务3:联合嵌入

联合嵌入共收到756份提交。

⚪ 结果与分析

该任务的提交方案性能分布较广,有14支队伍的表现优于基线MNN方法(图a)。优胜方法同样倾向于使用浅层神经网络(图b)。

作者发现,竞赛中使用的两个批次校正指标(batchASW和graph connectivity)并不能充分地区分不同方法的性能,特别是未能有效评估数据中存在的嵌套批次效应。

赛后,作者使用更能反映站点批次效应的指标(如iLISI score)重新评估了提交方案。结果显示,不同指标会产生不同的方法排名(图c-e)。例如,原比赛中排名靠前的方法,在考虑站点批次效应时可能表现不佳。教训:在设计包含复杂批次结构的竞赛时,必须选择能够专门评估这种结构的指标。

⚪ 优胜方法 (Amateur团队)

Amateur团队的方法JAE(joint embedding with a regularized autoencoder)受到scDEC模型的启发,其核心是在一个自编码器框架中,显式地利用已知的细胞注释信息来约束潜在空间的结构。JAE将多种模态的数据(经过SVD降维后)拼接起来作为输入。其损失函数是一个多任务损失,包括重构损失、细胞类型预测损失、细胞周期分数回归损失、批次校正损失。通过这些正则项,JAE的潜在空间被塑造成一个既能恢复原始数据,又能编码多种生物学和技术信息的结构。