整合多模态大规模单细胞分析的字典学习.

0. TL; DR

本文引入了桥接整合(bridge integration)方法,通过利用一个多组学数据集作为桥梁,来协调单细胞数据集跨模态的整合。多组学数据集中的每个细胞都构成了字典中的一个元素,这个字典可以被用来重构单模态数据集,并将其转换到一个共享的空间中。

作者展示了桥接整合能够准确地协调转录组数据与染色质可及性、组蛋白修饰、DNA甲基化和蛋白质水平等多种独立测量的单细胞数据。

1. 背景介绍

在单细胞基因组学领域,将新的查询数据集映射到一个精心注释的参考数据集上,已经成为一种强大的分析范式,它为细胞类型的注释和跨实验的比较提供了标准化的框架。然而,这一范式正面临一个巨大的瓶颈:几乎所有高质量的参考数据集,都是基于scRNA-seq构建的。

这意味着,我们无法直接利用这些宝贵的参考资源,来注释那些不测量基因表达的、同样重要的单细胞数据,例如scATAC-seq (染色质可及性)、scCUT&Tag (组蛋白修饰)、scBS-seq (DNA甲基化)、CyTOF (蛋白质)。

现有的跨模态映射方法,通常依赖于一些强生物学假设。例如,它们假设开放的染色质区域总是对应着活跃的基因转录。然而,在细胞分化或疾病等动态过程中,这种简单的线性关系往往不成立。

作者提出了一个更灵活的整合策略:桥接整合。其核心思想是利用一个同时测量了两种(或多种)模态的多组学数据集,作为连接两个独立单模态数据集的分子桥梁。为了实现这一目标,作者从表示学习(representation learning)领域,特别是字典学习(dictionary learning)中汲取了灵感。

2. 字典学习驱动的整合

作者在本研究中提出了两种基于字典学习的整合策略:桥接整合用于跨模态映射,原子草图整合用于大规模数据整合。

2.1 桥接整合 (Bridge Integration)

桥接整合的目标是利用一个多组学桥梁数据集,来对齐两个独立的、分别测量了不同模态的单模态数据集。

字典学习旨在将一个复杂的数据(如一张图片),表示为一本字典中原子(如图像块)的加权线性组合。作者指出,可以将一个多组学数据集视为一本字典,其中每个细胞的多组学谱(multi-omic profile)就是一个原子。

桥接整合的步骤:

  1. 学习字典表示。对于每一个单模态数据集(如一个独立的scATAC-seq数据集),作者学习如何用桥梁字典中的原子来重构它。具体来说,就是为scATAC-seq数据集中的每个细胞,找到一组权重,使其ATAC谱能够被桥梁数据集中所有细胞ATAC谱的加权线性组合最好地表示出来。这个权重向量,就是该细胞的字典表示。
  2. 特征空间转换。通过这一步,作者成功地将原本测量不同特征的多个数据集,转换到了一个由桥梁原子定义的共享特征空间中。现在,每个细胞,无论它最初来自哪个模态,其特征向量都是一个描述其与桥梁中每个细胞相似程度的权重向量。
  3. 特征图加速: 当桥梁数据集很大时,字典中的原子数量也会很多,导致计算负担沉重。受拉普拉斯特征图(Laplacian Eigenmaps)的启发,作者通过计算桥梁数据集的图拉普拉斯矩阵并进行特征分解,来对字典表示进行降维,从而极大地提升了计算效率。
  4. 最终对齐。在这个共享的特征空间中,作者可以使用任何标准的单细胞整合技术来对齐不同的数据集,消除批次效应。

2.2 原子草图整合 (Atomic Sketch Integration)

当需要整合海量(如数十个、数百万细胞)的同模态数据集时,即便是最高效的算法也会面临计算瓶颈。为此,作者提出了原子草图整合。

该策略借鉴了几何草图(geometric sketching)的思想,即先对一个代表性的子集进行复杂计算,再将结果传播回整个数据集。与桥接整合不同,这里的字典和原子是从数据集自身中选取的。

原子草图整合的步骤:

  1. 原子采样 (草图构建)。对于每个待整合的数据集,作者使用杠杆分数采样(leverage-score sampling)技术,从中抽取一小部分(如5000个)具有代表性的细胞,作为该数据集的原子或“草图。杠杆分数采样能够确保草图中既包含常见细胞类型,也包含稀有细胞类型。
  2. 学习字典表示。对于每个数据集,作者独立地学习如何用其自身的原子草图来重构整个数据集,得到每个细胞的字典表示。
  3. 整合原子。这是唯一一个需要同时处理多个数据集的步骤。作者只对所有数据集的原子(即草图)进行整合。由于原子的数量远小于细胞总数,这一步的计算开销非常小。
  4. 重构和谐化的全数据集。最后,作者利用第二步学习到的字典表示,以及第三步得到的和谐化的原子,来为每个数据集独立地重构出其经过整合校正后的完整细胞谱。

通过这种独立学习 -> 联合整合子集 -> 独立重构的策略,原子草图整合成功地避免了对海量数据进行直接的、高消耗的计算,极大地提升了大规模整合的可行性。

3. 实验分析

作者通过一系列极具挑战性的真实数据应用,展示了其新方法的强大威力。

3.1 实验一:桥接整合 - 将scATAC-seq映射到scRNA-seq参考图谱

作者利用一个10x Multiome数据集作为桥梁,将一个独立的scATAC-seq数据集,成功地映射到了一个包含近30万细胞的人类骨髓Azimuth scRNA-seq参考图谱上。

3.2 实验二:鲁棒性与基准测试

作者进一步测试了桥接整合的鲁棒性,并与multiVICoboltSOTA方法进行了基准比较。

3.3 实验三:原子草图整合 - 社区规模的人类肺部scRNA-seq整合

作者利用原子草图整合,对一个包含19个研究、总计超过150万个人类肺部和上呼吸道细胞的scRNA-seq数据集进行了整合。

3.4 实验四:整合测序与流式细胞数据

最后,作者进行了一项规模空前的整合:首先,利用原子草图整合,整合了来自14个研究、639个个体、总计346万个人类PBMCscRNA-seq数据,构建了一个COVID-19免疫图谱。然后,利用一个CITE-seq数据集作为桥梁,将一个包含119个个体、总计517万个细胞的CyTOF(质谱流式)数据集,映射到了这个scRNA-seq图谱上。