0. TL; DR

为了激发多组学分析算法的创新，作者在NeurIPS 2021会议上组织了一场单细胞多组学数据整合竞赛。作者为此构建了首个专为基准测试而设计的多组学数据集，并定义了该领域的三大核心计算任务：

模态预测 (Predicting one modality from another): 利用一种模态数据预测另一种模态。
模态匹配 (Matching cells between modalities): 为来自同一细胞但被打乱的不同模态测量值重新“配对”。
联合嵌入 (Jointly learning representations): 学习一个能够融合所有模态信息、去除批次效应的低维细胞表征。

作者为每个任务都指定了明确的评估指标，并开发了一套基于云端的自动化算法评估流程。在为期三个月的竞赛中，作者收到了来自280名参赛者的超过2600份解决方案。作者所构建的数据集、评估框架和所有优胜者的代码，都已被整合到单细胞分析开放难题（Open Problems for Single-Cell Analysis）这个长期基准测试平台中。

2. 竞赛设置

作者严格遵循通用任务框架（Common Task Framework, CTF）的原则，致力于提供一个公平、可重复的竞技平台，为竞赛搭建了包含数据集、任务定义和评分流程在内的完整框架。

2.1 数据集 (Dataset)

本次竞赛的一大核心贡献是构建了一个专为基准测试设计的、反映真实世界挑战的多组学数据集。作者通过大规模合作，收集了来自12位捐赠者的骨髓样本，并利用两种前沿的多组学技术进行处理：

CITE-seq: 同时测量单细胞的基因表达（GEX）和表面蛋白水平（ADT）。
10x Multiome: 同时测量单个细胞核的染色质可及性（ATAC）和基因表达（GEX）。

最终，作者获得了包含约9万个细胞的CITE-seq数据和约7万个细胞的Multiome数据。为了模拟真实世界中数据整合的复杂性，作者特意将数据生成过程分布在4个不同的实验中心，从而引入了捐赠者和实验中心的嵌套批次效应（Nested Batch Effect）。

2.2 任务定义 (Tasks)

作者定义了三个精确的、可量化评估的核心任务。

任务1：模态预测 (Predicting one modality from another)
- 目标： 利用一种模态的数据，准确预测另一种模态的测量值。例如，从GEX预测ADT。
- 动机： 在此任务上表现优异的算法，可能学习到了控制基因信息流动的复杂调控规则。
- 评估指标： 均方根误差 (Root Mean Squared Error, RMSE)。
任务2：模态匹配 (Matching cells between modalities)
- 目标： 对于同时测量的多组学数据，在隐藏其一一对应关系后，通过计算重新准确地找到每个细胞的“另一半”。
- 动机： 大多数存量单细胞数据都是单模态的。能够精准对齐不同模态数据的算法，将极大地释放这些存量数据的价值。
- 评估指标： 正确配对的权重总和 (Sum of weights in correct correspondences)。这个指标衡量了模型为正确配对赋予的概率总和，越高越好。
任务3：联合嵌入 (Jointly learning representations of cellular identity)
- 目标： 学习一个低维（5-100维）的细胞嵌入表示，这个表示需要能够融合所有模态的互补信息，同时去除批次效应。
- 动机： 一个高质量的联合嵌入是所有下游分析（如细胞类型鉴定、轨迹推断）的基础。
- 评估指标： 6个子指标的平均分。这些指标分为两类：
  - 生物学保留 (Biology Conservation): 评估嵌入保留了多少真实的生物学结构（如细胞类型）。
  - 批次校正 (Batch Removal): 评估嵌入去除了多少技术性的批次效应。

3. 结果与分析

本次竞赛吸引了来自全球的280多名参赛者，组成了172支队伍，总共提交了超过2600个模型。作者对优胜方法和总体趋势进行了深入分析。

3.1 总体趋势与反馈 (General trends and feedback)

工具与框架： 在单细胞分析工具包中，Scanpy最受欢迎（46%）。在深度学习框架方面，PyTorch的使用频率是TensorFlow的两倍，这再次印证了PyTorch在科研领域的流行趋势。
数据交付与截止日期： 由于供应链问题，作者不得不调整数据发布和比赛截止日期，这是参赛者反馈中最主要的批评。教训：对于依赖复杂实验的数据竞赛，必须预留充足的时间缓冲，并尽可能避免更改关键时间节点。
评估基础设施： 竞赛后期提交量激增，导致评估服务器周转时间过长，影响了参赛体验。教训：必须为竞赛的最后阶段预留并仔细评估计算资源，以应对提交高峰。
数据集的价值： 60%的受访者表示计划在赛后继续使用作者提供的基准数据集，这凸显了构建一个高质量、专为基准测试设计的数据集的重要性。

3.2 任务1：模态预测

模态预测共收到1393份提交。

⚪ 结果与分析

在大多数子任务中（如GEX→ATAC），绝大多数提交方案的性能都与基线模型（baseline）非常接近，没有出现革命性的提升（图a）。这可能是因为：

ATAC数据的稀疏性： 对于ATAC数据，由于其高度稀疏和二值化，一个简单地预测“全零”的模型也能在RMSE指标上取得不错的成绩。这表明RMSE可能不是评估ATAC预测任务的最佳指标，未来或许应考虑对正确预测的开放区域给予更高权重。
批次效应的干扰： 数据中存在的站点批次效应，限制了模型从训练数据到测试数据（来自未见过的站点）的泛化能力。

在ATAC→GEX和GEX→ADT两个子任务中，出现了一些显著优于基线的方法。这些优胜方法大多采用了浅层（3-5层）的深度学习模型，但并没有某一种特定架构表现出绝对优势（图b）。

由于性能普遍相近，模型的随机性对最终排名影响很大。例如，作者将总分第一名（DANCE团队）的模型重复运行四次，其排名就在1-9名之间波动（图c）。

⚪ 优胜方法

ATAC→GEX 冠军 (Cajal团队): 使用了一个4层的深度神经网络，其特色在于输入特征的选择。他们利用一个带注释的参考数据集，通过t检验筛选出细胞类型特异性的、差异可及的ATAC peaks作为输入特征，并辅以总count等统计特征。
GEX→ADT 冠军 (Guanlab-dengkw团队): 出人意料地，该团队并未使用深度学习，而是采用了核岭回归（Kernel Ridge Regression, KRR）。他们首先对输入和输出数据都进行SVD降维，然后在降维后的空间中训练KRR模型。为了处理大规模数据，他们还采用了随机采样和模型集成的策略。

3.3 任务2：模态匹配

模态匹配共收到462份提交。

⚪ 结果与分析

该任务中CLUE团队的方法在所有子任务中都取得了压倒性的胜利，与其他方法拉开了显著的差距（图a）。作者发现，如果将任务难度降低为在细胞类型层面进行匹配，那么前几名的方法性能差距并不大。然而，在单细胞层面的精准匹配上，CLUE的性能比第二梯队高出2-5倍（图c, d）。这表明CLUE成功地利用了超越已知细胞类型注释的、更深层次的生物学结构来进行匹配。

令人惊讶的是，表现最好的两个方法（CLUE和Novel团队）都没有利用任何关于特征间关系的先验知识（如peak与基因的距离）。这暗示着，未来如果能有效融入这些信息，匹配精度或许还有进一步提升的空间。

⚪ 优胜方法：CLUE

CLUE (Cross-Linked Universal Embedding) 的核心是一个多模态变分自编码器（VAE）。其关键创新在于，它没有将所有模态强制压缩到一个单一的共享潜在空间，而是将潜在空间划分为多个模态特异性的子空间。每个输入细胞（无论来自哪个模态）都会被一个编码器矩阵投影到所有的模态特异性子空间中。最终的联合嵌入由所有这些子空间的拼接而成。这种设计使得CLUE能够同时保留模态间的共享信息和每个模态独有的特异性信息，从而极大地提升了匹配的准确性。

3.4 任务3：联合嵌入

联合嵌入共收到756份提交。

⚪ 结果与分析

该任务的提交方案性能分布较广，有14支队伍的表现优于基线MNN方法（图a）。优胜方法同样倾向于使用浅层神经网络（图b）。

作者发现，竞赛中使用的两个批次校正指标（batchASW和graph connectivity）并不能充分地区分不同方法的性能，特别是未能有效评估数据中存在的嵌套批次效应。

赛后，作者使用更能反映站点批次效应的指标（如iLISI score）重新评估了提交方案。结果显示，不同指标会产生不同的方法排名（图c-e）。例如，原比赛中排名靠前的方法，在考虑站点批次效应时可能表现不佳。教训：在设计包含复杂批次结构的竞赛时，必须选择能够专门评估这种结构的指标。

⚪ 优胜方法 (Amateur团队)

Amateur团队的方法JAE（joint embedding with a regularized autoencoder）受到scDEC模型的启发，其核心是在一个自编码器框架中，显式地利用已知的细胞注释信息来约束潜在空间的结构。JAE将多种模态的数据（经过SVD降维后）拼接起来作为输入。其损失函数是一个多任务损失，包括重构损失、细胞类型预测损失、细胞周期分数回归损失、批次校正损失。通过这些正则项，JAE的潜在空间被塑造成一个既能恢复原始数据，又能编码多种生物学和技术信息的结构。