整合多模态大规模单细胞分析的字典学习.
0. TL; DR
本文引入了桥接整合(bridge integration)方法,通过利用一个多组学数据集作为桥梁,来协调单细胞数据集跨模态的整合。多组学数据集中的每个细胞都构成了字典中的一个元素,这个字典可以被用来重构单模态数据集,并将其转换到一个共享的空间中。
作者展示了桥接整合能够准确地协调转录组数据与染色质可及性、组蛋白修饰、DNA甲基化和蛋白质水平等多种独立测量的单细胞数据。
1. 背景介绍
在单细胞基因组学领域,将新的查询数据集映射到一个精心注释的参考数据集上,已经成为一种强大的分析范式,它为细胞类型的注释和跨实验的比较提供了标准化的框架。然而,这一范式正面临一个巨大的瓶颈:几乎所有高质量的参考数据集,都是基于scRNA-seq构建的。
这意味着,我们无法直接利用这些宝贵的参考资源,来注释那些不测量基因表达的、同样重要的单细胞数据,例如scATAC-seq (染色质可及性)、scCUT&Tag (组蛋白修饰)、scBS-seq (DNA甲基化)、CyTOF (蛋白质)。
现有的跨模态映射方法,通常依赖于一些强生物学假设。例如,它们假设开放的染色质区域总是对应着活跃的基因转录。然而,在细胞分化或疾病等动态过程中,这种简单的线性关系往往不成立。

作者提出了一个更灵活的整合策略:桥接整合。其核心思想是利用一个同时测量了两种(或多种)模态的多组学数据集,作为连接两个独立单模态数据集的分子桥梁。为了实现这一目标,作者从表示学习(representation learning)领域,特别是字典学习(dictionary learning)中汲取了灵感。
2. 字典学习驱动的整合
作者在本研究中提出了两种基于字典学习的整合策略:桥接整合用于跨模态映射,原子草图整合用于大规模数据整合。
2.1 桥接整合 (Bridge Integration)
桥接整合的目标是利用一个多组学桥梁数据集,来对齐两个独立的、分别测量了不同模态的单模态数据集。

字典学习旨在将一个复杂的数据(如一张图片),表示为一本字典中原子(如图像块)的加权线性组合。作者指出,可以将一个多组学数据集视为一本字典,其中每个细胞的多组学谱(multi-omic profile)就是一个原子。
桥接整合的步骤:
- 学习字典表示。对于每一个单模态数据集(如一个独立的scATAC-seq数据集),作者学习如何用桥梁字典中的原子来重构它。具体来说,就是为scATAC-seq数据集中的每个细胞,找到一组权重,使其ATAC谱能够被桥梁数据集中所有细胞ATAC谱的加权线性组合最好地表示出来。这个权重向量,就是该细胞的字典表示。
- 特征空间转换。通过这一步,作者成功地将原本测量不同特征的多个数据集,转换到了一个由桥梁原子定义的共享特征空间中。现在,每个细胞,无论它最初来自哪个模态,其特征向量都是一个描述其与桥梁中每个细胞相似程度的权重向量。
- 特征图加速: 当桥梁数据集很大时,字典中的原子数量也会很多,导致计算负担沉重。受拉普拉斯特征图(Laplacian Eigenmaps)的启发,作者通过计算桥梁数据集的图拉普拉斯矩阵并进行特征分解,来对字典表示进行降维,从而极大地提升了计算效率。
- 最终对齐。在这个共享的特征空间中,作者可以使用任何标准的单细胞整合技术来对齐不同的数据集,消除批次效应。
2.2 原子草图整合 (Atomic Sketch Integration)
当需要整合海量(如数十个、数百万细胞)的同模态数据集时,即便是最高效的算法也会面临计算瓶颈。为此,作者提出了原子草图整合。

该策略借鉴了几何草图(geometric sketching)的思想,即先对一个代表性的子集进行复杂计算,再将结果传播回整个数据集。与桥接整合不同,这里的字典和原子是从数据集自身中选取的。
原子草图整合的步骤:
- 原子采样 (草图构建)。对于每个待整合的数据集,作者使用杠杆分数采样(leverage-score sampling)技术,从中抽取一小部分(如5000个)具有代表性的细胞,作为该数据集的原子或“草图。杠杆分数采样能够确保草图中既包含常见细胞类型,也包含稀有细胞类型。
- 学习字典表示。对于每个数据集,作者独立地学习如何用其自身的原子草图来重构整个数据集,得到每个细胞的字典表示。
- 整合原子。这是唯一一个需要同时处理多个数据集的步骤。作者只对所有数据集的原子(即草图)进行整合。由于原子的数量远小于细胞总数,这一步的计算开销非常小。
- 重构和谐化的全数据集。最后,作者利用第二步学习到的字典表示,以及第三步得到的和谐化的原子,来为每个数据集独立地重构出其经过整合校正后的完整细胞谱。
通过这种独立学习 -> 联合整合子集 -> 独立重构的策略,原子草图整合成功地避免了对海量数据进行直接的、高消耗的计算,极大地提升了大规模整合的可行性。
3. 实验分析
作者通过一系列极具挑战性的真实数据应用,展示了其新方法的强大威力。
3.1 实验一:桥接整合 - 将scATAC-seq映射到scRNA-seq参考图谱
作者利用一个10x Multiome数据集作为桥梁,将一个独立的scATAC-seq数据集,成功地映射到了一个包含近30万细胞的人类骨髓Azimuth scRNA-seq参考图谱上。
- 图a,b,c (成功映射与注释): 桥接整合成功地将scATAC-seq查询数据映射到了RNA参考图谱上,实现了跨模态的联合可视化和细胞类型注释。
- 图d,e,f (发现稀有细胞类型): 通过参考映射,作者在scATAC-seq数据中成功地注释出了多个稀有且高分辨率的细胞亚群,如CD14+/CD16+单核细胞、CD56bright/dim NK细胞等。更重要的是,作者还识别出了极其罕见的先天性淋巴细胞(ILC)和ASDC树突状细胞,这些细胞类型之前从未在scATAC-seq数据中被报道过。通过检查marker基因(如SIGLEC6)的染色质可及性,证实了这些注释的准确性。
- 图g-l (跨模态关联分析): 整合后的空间使作者能够探索跨模态的调控关系。例如,在髓系分化轨迹中,作者发现,许多与细胞周期相关的基因,其染色质可及性的开放,要早于其基因表达的上调,呈现出一种滞后(lagging)现象。这揭示了一种启动(priming)机制,即细胞在分化早期就为后续快速的细胞周期进入做好了表观遗传学上的准备。

3.2 实验二:鲁棒性与基准测试
作者进一步测试了桥接整合的鲁棒性,并与multiVI和Cobolt等SOTA方法进行了基准比较。
- 图a (对桥梁大小的鲁棒性): 作者发现,只要桥梁数据集中每种细胞类型包含至少50个细胞,就足以实现鲁棒的整合。
- 图b (与SOTA方法比较): 桥接整合在识别ASDC等稀有细胞类型上,比multiVI和Cobolt具有更高的分辨率。
- 图c (金标准基准测试): 作者利用配对多组学数据集(10x Multiome和Paired-Tag)构建了金标准测试。结果显示,在使用桥接整合后,来自同一个细胞的RNA和ATAC/CUT&Tag谱,其Jaccard相似性最高,显著优于其他方法。
- 图d,e,f (整合DNA甲基化数据): 作者还展示了桥接整合能够成功地将单细胞DNA甲基化(snmC-seq)数据映射到scRNA-seq参考图谱上,并为其提供了更具生物学可解释性的细胞类型注释。

3.3 实验三:原子草图整合 - 社区规模的人类肺部scRNA-seq整合
作者利用原子草图整合,对一个包含19个研究、总计超过150万个人类肺部和上呼吸道细胞的scRNA-seq数据集进行了整合。
- 图b,c (高效整合): 整个整合过程(包括预处理)仅耗时55分钟,展现了其无与伦比的计算效率。整合后的UMAP图清晰地显示,来自不同研究的细胞被完美地混合在一起。
- 图d (发现超稀有细胞): 社区规模的整合极大地提升了统计功效。作者在19个研究中的17个里,都成功地识别出了极其罕见的肺离子细胞(pulmonary ionocytes),而这些细胞在单个研究中往往难以被发现。
- 图e,f,g (识别鲁棒的marker基因): 通过对整合后的数据进行伪批量(pseudobulk)差异表达分析,作者识别出了一系列在多个研究中都保持一致的、更鲁棒的细胞类型marker基因,并揭示了肺离子细胞与ATP酶和氯离子通道相关的功能。

3.4 实验四:整合测序与流式细胞数据
最后,作者进行了一项规模空前的整合:首先,利用原子草图整合,整合了来自14个研究、639个个体、总计346万个人类PBMC的scRNA-seq数据,构建了一个COVID-19免疫图谱。然后,利用一个CITE-seq数据集作为桥梁,将一个包含119个个体、总计517万个细胞的CyTOF(质谱流式)数据集,映射到了这个scRNA-seq图谱上。
- 图a,b (scRNA-seq图谱): 这个大规模的scRNA-seq图谱成功地揭示了与COVID-19疾病严重程度相关的细胞类型丰度和基因表达变化。
- 图c,d,e (跨平台映射): 桥接整合成功地将CyTOF数据映射到了RNA定义的细胞图谱上。这使得作者能够利用RNA定义的细胞类型,来探索CyTOF数据中独特的胞内蛋白的表达模式。例如,作者验证了FOXP3在Treg细胞中的高表达,以及粒酶B在MAIT细胞中的低表达。
