计算病理学中转录组引导的切片表示学习.
0. TL; DR
TANGLE是一种slide和expression预训练策略。该策略的核心思想是:利用来自基因表达谱的互补信息来引导切片表示的学习。TANGLE通过模态特定的编码器处理WSI和基因表达数据,并利用对比学习来对齐这两种模态的输出。
该模型在一个包含来自人类和大鼠的肝脏、乳腺和肺部三种不同器官的数千个S+E配对样本上进行了预训练。在三个独立的测试数据集(共计7,795张WSI)上,TANGLE展示了显著优于监督学习和SSL基线方法的few-shot性能。在使用基于原型的分类和切片检索进行评估时,TANGLE也显示出比所有基线方法都优越的性能。
1. 背景介绍
Self-supervised learning (SSL) 近年来在计算病理学(CPath)领域获得了巨大的关注。SSL特别适合于建模WSI,因为它们尺寸巨大,难以直接用Vision Transformers (ViTs) 或Convolutional Neural Networks (CNNs) 处理。因此,CPath领域的主流方法是采用“分而治之”的策略:首先将WSI切分成小的patches,然后用一个预训练的网络(通常是在ImageNet或病理学特定数据集上训练的)来提取低维的patch embeddings。
除了在patch层面应用SSL,研究人员也开始探索在slide层面构建embeddings。这样得到的slide embeddings可以用于各种下游任务,如少样本分类、切片检索等,且无需或只需很少的训练。然而,用SSL构建slide embeddings仍然面临挑战:
- 基于patch级增强来构建slide的“视图”计算成本高昂。
- 在扩展到巨大的输入时,需要学习的视觉基元和不变性变得不明确。
- WSI内部的异质性可能会妨碍模型获得一致且强大的训练信号。
受多模态视觉-语言模型的启发,作者提出利用基因表达数据来引导切片表示学习。WSI(形态学)和基因表达(分子)为同一生物过程提供了不同但互补的视角。作者假设,用基因表达来引导切片表示学习,会比单纯使用切片自身的增强或掩码提供更强的训练信号。
因此,作者提出了TANGLE,一个基于多模态对比学习的框架,旨在通过对齐slide和expression (S+E) 的嵌入来预训练一个强大的切片表示学习模型。
2. TANGLE 方法
TANGLE (TrANscriptomics-Guided sLidE representation learning) 的框架如图所示,它由一个视觉编码器、一个基因表达编码器和一个多模态对齐模块组成。

2.1 切片编码器 (Slide encoder)
该部分的目标是将一张WSI $X_i$ 编码成一个slide embedding $h_i \in \mathbb{R}^d$。
首先将WSI分割成小的patches。然后,使用一个预训练的视觉编码器将每个patch编码成一个patch embedding。对于人类组织,作者使用了CTransPath,一个在超过32,000张WSI上训练的Swin Transformer。对于rat组织,由于缺乏现成的模型,作者从零开始训练了一个名为iBOT-Tox的ViT-Base模型。该模型在来自47,227张WSI的1500万个H&E patches上使用iBOT方法进行了训练。
在得到一个WSI的所有patch embeddings $H_i \in \mathbb{R}^{N_H \times d_H}$后,作者使用一个attention-based MIL (ABMIL) 模型来学习一个映射函数$f(H_i)$,将patch embeddings集合池化成一个单一的slide embedding $h_i$。
2.2 基因表达编码器 (Gene expression encoder)
该部分的目标是将原始的转录组测量值编码成一个expression embedding $g_i \in \mathbb{R}^d$。
首先,计算相对于对照组的log2 fold change,这代表了基因相对于正常样本的过表达或低表达程度。然后,选择log2 fold change最大的前$k$个基因(实验中$k=1000$)。
使用一个3层的MLP $\phi(\cdot)$来学习一个映射,将筛选后的基因表达谱$t_i \in \mathbb{R}^{N_G}$投影到一个与slide embedding维度相同的expression embedding $g_i$。
\[g_i = \phi(t_i): \mathbb{R}^{N_G} \to \mathbb{R}^d\]2.3 多模态对齐 (Multimodal alignment)
作者使用一个对称的跨模态对比学习目标来对齐slide和expression编码器的嵌入空间。
对于一个包含$M$个(S+E)配对样本$(h_i, g_i)$的batch,其目标函数$L_{SymCL}$定义为:
\[L_{SymCL} = - \frac{1}{2M} \sum_{i=1}^M \log \frac{\exp(\tau h_i^T g_i)}{\sum_{j=1}^M \exp(\tau h_i^T g_j)} - \frac{1}{2M} \sum_{j=1}^M \log \frac{\exp(\tau g_j^T h_j)}{\sum_{i=1}^M \exp(\tau g_j^T h_i)}\]该损失函数的第一项是slide-to-expression的对比损失,第二项是expression-to-slide的对比损失。每一项都旨在最大化来自同一配对的嵌入之间的点积相似度,同时通过Softmax归一化来推远与其他负样本对的相似度。
2.4 下游任务
在推理阶段,一张查询slide被送入训练好的视觉编码器和MIL模块,得到其slide embedding,然后用于各种下游任务。
作者在三个下游任务上评估了TANGLE的性能:
- 少样本分类 (Few-shot classification):使用线性探测(linear probing)。
- 基于原型的分类 (Prototype-based classification):通过计算查询slide与预定义原型之间的L2距离进行分类。
- 切片检索 (Slide retrieval):通过计算slide embeddings之间的余弦距离来检索相似的slides。

3. 实验分析
3.1 数据集
- TG-GATEs:一个大规模的毒理学数据集,包含rat(大鼠)的肝脏和肾脏切片及相应的基因表达谱。
- TCGA:包含了大量的人类癌症WSI和基因表达数据。作者使用了TCGA-BRCA(乳腺癌)和TCGA-NSCLC(非小细胞肺癌)队列。
- In-house:来自内部档案的乳腺癌和非小细胞肺癌队列,作为独立的测试集。
3.2 少样本线性探测分类
利用基因表达数据作为引导信号的S+E预训练范式,比纯视觉的SSL和传统的监督MIL方法能学习到更具判别力的切片表示。
- TANGLE vs. 监督学习的MIL:在肝脏、乳腺和肺癌三个数据集上,TANGLE在不同数量的训练样本($k$)下,都显著优于所有基于MIL的监督学习基线(如ABMIL, TransMIL)。例如,在k=10的设置下,TANGLE在肝、乳腺、肺癌上的Macro-AUC分别比ABMIL高出5.9%、11.0%和6.2%。
- TANGLE vs. 纯视觉SSL:与HIPT和作者自己实现的纯视觉slide-level SSL(INTRA)相比,TANGLE的性能也显著更优。例如,在乳腺癌和肺癌上,TANGLE的性能比INTRA高出超过12%。

3.3 基于原型的少样本分类
该实验旨在评估TANGLE构建的slide-level原型能否用于识别特定的形态学特征。结果显示,TANGLE和TANGLE-REC(TANGLE的变体)在两个病变检测任务中都优于所有基线方法。一个惊人的发现是,仅用3个或更多样本构建原型的TANGLE,其性能就超过了在一个包含18,552张WSI的完整训练集上训练的ABMIL模型。这突显了TANGLE学习到的嵌入空间的强大判别能力,以及基于原型的方法在特定形态学检测任务上的巨大潜力。

3.4 切片检索
该任务旨在评估TANGLE能否检索出与查询slide具有相同药物、剂量和处死时间等特征的slides。TANGLE取得了最佳的检索性能,在top-10的检索结果中,平均能正确找回2.88/4张相关切片,在top-20中则能找回3.44/4张。这表明TANGLE能够捕捉到由不同药物剂量或处死时间引起的微妙形态学差异。

3.5 可解释性分析
TANGLE学习到的表示不仅具有强大的预测能力,而且在生物学上是可解释的,能够与已建立的生物学发现对齐。
- 注意力可视化(上):TANGLE在预训练期间学习到的注意力权重(红色高亮)能够准确地与病变区域(如脂肪变性和肝细胞肥大)相关联。
- 基因重要性(左):作者使用Integrated Gradients (IG) 来推导基因级别的重要性分数。结果显示,高重要性的基因(如CYP1A1)与已知的肝毒性标志物高度吻合。
- 全局基因重要性(右):作者分析了在测试样本中,哪些基因最常出现在top-k个最具影响力的基因列表中。结果发现,许多基因(如ABCC3, GSTA3)都持续地显示出高影响力。通过查询Comparative Toxicogenomics Database (CTD),作者证实了排名前10的基因中有9个与药物性肝损伤有超过1000篇文献的关联。
