MAGAN:对齐生物流形.

0. TL; DR

利用GAN来寻找样本集之间对应关系的方法并未显式地对流形进行恰当的对齐。本文提出了MAGAN (Manifold Aligning GAN),它能够对齐两个流形,使得每个测量空间中的相关点得以精确对齐。

作者在单细胞生物学领域展示了MAGAN的应用,具体为整合两种不同的测量类型:对来自同一组织的细胞,同时进行基因组学(单细胞RNA测序)和蛋白质组学(质谱流式细胞术)的测量。与其他近期提出的模型相比,MAGAN成功地对齐了流形,使得已知相关的生物标志物之间的相关性得到了改善。

1. 背景介绍

生物学研究经常面临这样的场景:对同一个生物样本(如一块组织),用不同的技术手段进行了测量。例如用单细胞RNA测序(scRNA-seq)测量了其中一些细胞的基因表达,又用质谱流式细胞术(CyTOF)测量了另一些细胞的蛋白质丰度。这两组数据描述的是同一个底层系统,但特征空间完全不同。

为了获得一幅完整的全景图,需要将这两组数据进行整合。一个自然的想法是,学习一个从一个数据域到另一个数据域的映射。近年来,基于双向生成对抗网络(Dual GANs)的无监督域翻译模型(如CycleGAN, DiscoGAN)为这一任务提供了强大的工具。这些模型通过两个相互博弈的GAN,可以在完全没有成对样本的情况下,学习将一个域的数据分布变换成另一个域的分布。

然而这些模型存在一个被忽视的、但至关重要的理论缺陷。它们的成功仅仅是实现了流形的叠加(superimposition),而非流形的对齐(alignment)

在许多生物学应用中关心的正是这种点对点的对应关系。例如想知道某个细胞的特定基因表达模式,是否对应着某种特定的蛋白质丰度模式。如果模型只是实现了流形叠加,它可能会将A细胞的基因表达映射到B细胞的蛋白质丰度上,从而得出错误的生物学结论。因此需要一个能够实现流形对齐的新框架。这个框架必须能够在众多可以欺骗判别器的映射中,找到那个真正想要的、保持了点对点正确对应关系的映射。

2. MAGAN 模型

MAGAN的架构基于经典的双向GAN(如CycleGAN),通过引入对应损失(correspondence loss)和一种新颖的流形数据增强技术,实现了从叠加到对齐的飞跃。

MAGAN由两个对称的GAN组成,分别负责从域1到域2的映射($G_{12}$)和从域2到域1的映射($G_{21}$)。

对于一个生成器(以$G_{12}$为例),其总损失由三部分构成:

\[L_{G1} = L_r + L_d + L_c\]
  1. $L_d$ (对抗损失, Discriminator Loss): 这是标准的GAN损失。生成器 $G_{12}$ 的目标是生成让域2的判别器 $D_2$ 无法区分的样本 $x_{12} = G_{12}(x_1)$。 \(L_d = -\mathbb{E}_{x_1 \sim P_{X1}}[\log D_2(x_{12})]\)

  2. $L_r$ (重构损失, Reconstruction Loss): 这是CycleGAN中的循环一致性损失。它要求一个样本在经过“域1 → 域2 → 域1”后应该还能变回它自己。即,$x_{121} = G_{21}(G_{12}(x_1))$ 应该与原始的 $x_1$ 尽可能相似。 \(L_r = L(x_1, x_{121})\) 其中$L$可以是任意损失函数,如均方误差(MSE)。

  3. $L_c$ (对应损失, Correspondence Loss): 直接对“域1 → 域2”这一单向映射的质量进行约束,要求映射前后的点之间保持某种已知的对应关系。 \(L_c = L(x_1, x_{12})\) 这个损失项是实现流形对齐而非仅仅叠加的关键。

对应损失 (Correspondence Loss)

对应损失的设计取决于具体问题中拥有的先验知识。MAGAN提出了两种灵活的构建方式:

⚪ 无监督对应损失 (Unsupervised Correspondence)

当两个数据域的特征空间存在部分重叠时,可以利用这些共享特征来构建对应损失。

例如,在整合两个不同panelCyTOF实验数据时,一个panel测量了35种蛋白,另一个测量了31种,其中有16种蛋白是共享的。对于这些共享的蛋白(如CD4),有充分的理由相信同一个细胞在这两个实验中的测量值应该是相似的。

因此可以将对应损失定义为:在所有共享维度上,原始点与映射后点的均方误差。

\[L_c = \text{MSE}(G_{12}(x_1)_j, (x_1)_i) + \text{MSE}(G_{21}(x_2)_i, (x_2)_j)\]

其中$(i, j)$是共享维度对。这个损失强制生成器在进行域翻译时,必须保持共享特征的值不变,然后在此基础上合理地填充那些非共享维度的值。这种策略可以推广到任何已知特征间关系的场景(如负相关等)。

⚪ 半监督对应损失 (Semi-supervised Correspondence)

当两个数据域的特征完全不同,没有任何共享维度时(如CyTOF vs. scRNA-seq),无法构建无监督对应损失。但如果能通过某些方式获得极少数的、已知的配对样本(例如,通过实验手段确认细胞A的CyTOF数据和细胞B的scRNA-seq数据来自同一个细胞),就可以利用这些宝贵的配对信息。

在这种情况下,对应损失被定义为仅在这些已知的配对样本上计算的映射误差。对于一个已知的配对 $(x_{1i}, x_{2j})$:

\[L_c = \text{MSE}(G_{12}(x_{1i}), x_{2j}) + \text{MSE}(G_{21}(x_{2j}), x_{1i})\]

这个损失项只对小部分有标签的数据生效,但它提供的锚点信息足以引导整个无监督学习过程走向正确的对齐方向。

流形数据增强 (Manifold Data Augmentation)

自编码器的重构过程可以被看作是在数据流形上进行采样。在MAGAN中,$G_{21}(G_{12}(x_1))$ 就构成了一个对 $x_1$ 的重构,这个重构点 $x’_{1}$ 虽然与 $x_1$ 非常接近,但并不完全相同,可以被视为流形上的一个新样本。

MAGAN利用了这一点来进行数据增强:它让判别器 $D_1$ 不仅要区分真实的 $x_1$ 和从域2翻译过来的 $G_{21}(x_2)$,还要将自重构的样本 $x’_{1}$ 也视为真实样本。

这个操作带来了两大好处:

  1. 数据增强:凭空创造了新的、位于流形上的训练样本,增加了训练数据的多样性,这在样本量较少的生物学应用中尤其有用。
  2. 稳定训练:通过让判别器学习流形周围的噪声模式,可以防止它仅仅通过识别不同来源数据的微小技术噪声来“作弊”,从而迫使生成器学习更本质的映射。

3. 实验分析

作者在人工数据集、MNIST以及多个真实的单细胞生物学数据集上,对MAGAN的性能进行了验证。

3.1 实验一:人工数据与MNIST

作者构建了两组分别由三个高斯分布簇构成的点云。结果显示,不带对应损失的普通GAN会随机地将一个簇映射到另一个簇,虽然实现了分布的叠加,但对应关系是错误的。而MAGAN则能稳定地找到将每个簇映射到其空间位置最近的对应簇的正确解(图3a, 3b)。

作者将手写数字“3”和“7”作为域1,将其旋转120度后的图像作为域2。结果同样显示,普通GAN会以约50%的概率将“3”错误地映射到旋转后的“7”。而MAGAN在仅提供一个配对样本(一个“3”和其旋转图像)的情况下,就能在100%的情况下学习到正确的映射:“3”对“3”,“7”对“7”。

3.2 实验二:对齐CyTOF重复实验

作者应用MAGAN来对齐来自同一个血液样本,但在不同批次中运行的两次CyTOF实验数据。由于机器校准等原因,这两个重复实验之间存在明显的批次效应。

作者关注了两种可以通过CD45RACD45RO两个marker区分的T细胞亚群。在一个批次中,由于仪器dropoutCD45RA信号几乎完全丢失,导致两种亚群无法区分。普通GAN虽然能校正批次效应,但它错误地将一个批次中的初始T细胞映射到了另一个批次中的记忆T细胞,反之亦然。这将导致完全错误的生物学结论。而MAGAN则成功地学习到了正确的对应关系,在校正批次效应的同时,保留了细胞亚群的身份。

3.3 实验三:对齐不同CyTOF Panel

作者挑战了一个更困难的任务:对齐来自同一个细胞群体,但使用不同抗体组合(panel)测量的两个CyTOF数据集。一个测量了35个蛋白,另一个测量了31个,其中只有16个是共享的。MAGAN的目标是利用这16个共享蛋白作为无监督对应损失,来为每个细胞补全那些它没有被测量的蛋白。

作者通过交叉验证来评估模型的准确性:轮流将一个共享蛋白(如CD3)从一个数据集中隐藏,然后用模型预测它的值,并与真实值进行比较。结果显示,普通GAN预测的值与真实值呈负相关(-0.275),说明它学到了完全错误的映射。而MAGAN预测的值与真实值则呈现出极高的正相关(0.801)。在所有16个共享蛋白上的交叉验证都显示,MAGAN的预测精度远高于普通GAN。这证明MAGAN能够有效地利用共享信息,为细胞插补出缺失的模态维度。

3.4 实验四:对齐CyTOF与scRNA-seq

这是一个极具挑战性的跨模态对齐任务,需要对齐维度为12的FACS数据和维度为12496的scRNA-seq数据。作者使用半监督的方式,提供了10个已知的配对细胞来构建对应损失。

比较了MAGAN、普通GAN和一个基于LLE(局部线性嵌入)的经典流形对齐方法的对应误差(MSE)。结果显示,MAGAN的误差远低于普通GAN,虽然略高于专门为小数据集设计的LLE方法,但已经达到了非常接近的水平。考虑到MAGAN具有处理大规模数据的能力,这证明了它在处理极端异构数据对齐问题上的巨大潜力。