病理-基因组多模态结构化表示学习用于数据高效的精准肿瘤学.

0. TL; DR

MSRLMulti-modal Structural Representation Learning)框架通过Graph Structure Learning (GSL) 预训练一个多模态表示图,从数据本身学习并构建病例间的相关性。在微调阶段,模型动态地捕捉当前病例与训练集中已有病例之间的结构相关性。MSRL利用图结构,将已有诊断病例的真实基因组数据作为辅助信息,从而能够基于单一的组织病理学图像模态进行有效的推理。

作者在包含7,263个病例的公共TCGA数据集上,对MSRL进行了包括生存预测、癌症分级和基因突变预测在内的多种任务评估。结果表明,MSRL显著优于现有的缺失基因组数据生成方法,在生存预测任务上的C-Index提升了1.44%至3.12%,并达到了与多模态融合方法相当的性能。

1. 背景介绍

Histopathology whole slide images (WSIs)(组织病理学全切片图像)和genomics(基因组学)数据是癌症生存分析中两种互补且重要的数据源。前者描述了肿瘤的形态学特征,后者则揭示了其潜在的分子驱动机制。将两者融合的多模态学习方法,相比单模态方法,能为癌症诊断提供更全面、更个性化的表示。

然而,一个严峻的现实挑战是,基因组学数据的采集成本高昂,导致在许多实际的临床推理场景中,只有WSI而没有配对的基因组学数据。为了解决这一模态缺失问题,研究人员开始探索从可用的WSI中重建缺失的基因组学特征。

现有的重建方法主要分为两类:

  1. 辅助任务 (Auxiliary tasks):在训练过程中,增加一个重建基因组数据的辅助任务,通过重建损失或蒸馏损失来促使模型学习WSI与基因组特征之间的关联。
  2. 生成式方法 (Generative approaches):使用生成模型(如VAE),在WSI的条件下合成缺失的基因组特征。

尽管这些方法部分解决了模态缺失问题,但它们仍存在两个主要局限性:

因此,作者提出了MSRL框架,旨在通过学习病例间的结构化关联,并利用已有的真实基因组数据作为辅助,来实现更高效、更准确的单WSI模态推理。

2. MSRL 框架

MSRL框架包含两个阶段:多模态结构化表示预训练和微调/推理。

2.1 多模态结构化表示预训练 (Multi-modal Structural Representation Pre-training)

预训练阶段的目标是利用大规模的泛癌种数据,通过自监督的Graph Structure Learning (GSL) 来学习一个多模态表示图,该图能够捕捉病例之间的内在关联。

作者为每个病例构建了三种图:组织病理学图$G_H={H, A_H}$,基因图$G_G={G, A_G}$,以及融合多模态图$G_F={F, A_F}$。其中,$H, G, F$分别是病例的WSI特征、基因组特征和融合特征的集合(作为图的节点特征),$A$是邻接矩阵。

GSL的核心是一个可参数化的Graph Learner,它能根据输入的节点特征自适应地推断出优化的图结构(即邻接矩阵)。预训练目标:

  1. 模态内GSL (Intra-modality GSL):通过对比学习,最大化同一病例在同一模态下经过不同图结构(原始图 vs. 增强图)编码后的表示的一致性。这有助于发现每个模态内部病例间的关联。损失函数为$L_{intra}$。
  2. 模态间GSL (Inter-modality GSL):同样通过对比学习,最大化同一病例在不同模态下(WSI vs. 基因组)的表示的一致性。这有助于对齐两种模态的表示空间。损失函数为$L_{inter}$。
  3. 融合模态GSL (Fused-modality GSL):确保融合后的多模态表示能够保留各单模态的特有属性。通过最大化同一病例的融合表示与各单模态表示之间的一致性来实现。损失函数为$L_{fused}$。

经过预训练,模型学习到了一个泛化的、能够捕捉病例间多模态关联的图结构。

2.2 多模态结构化表示微调与推理

微调阶段的核心是一个online-target双分支架构和一个特征buffer机制。双分支训练:

Buffer用于存储训练集中所有病例的完整多模态特征。在推理阶段,当只有WSI输入时,这个buffer提供了可用的真实基因组数据源。Buffer中的特征会随着target branch的训练而动态更新(FIFO策略),以保持其表示的时效性。

对于online branch(或target branch),将当前mini-batch中的病例特征与从buffer中读取的历史病例特征相结合。将合并后的特征输入到预训练好的GSL模块中,动态地构建一个包含当前病例和历史病例的图。最后,通过一个GCN编码器在该图上进行信息传播,得到最终的节点表示$Z$(或$\hat{Z}$)。

为了将target branch的知识迁移到online branch,作者设计了三个层次的对齐损失:

  1. 特征对齐 ($L_{f align}$):对齐图学习前的融合特征$f$和$\hat{f}$。
  2. 图表示对齐 ($L_{g align}$):对齐图学习后的节点表示$Z$和$\hat{Z}$。
  3. 结构对齐 ($L_{s align}$):对齐两个分支学习到的图结构(邻接矩阵)$A_r$和$\hat{A}_r$。

在推理时,只使用训练好的online branch。对于一个新的WSI,通过Inductor生成genomics prompt,然后结合buffer中的历史真实数据,通过Graph Forward过程得到最终的表示,并进行预测。

3. 实验分析

3.1 实验设置

TCGA泛癌数据集(6,361个病例)上进行预训练。在五个TCGA队列(BLCA, BRCA, STAD, HNSC, COADREAD)上进行生存预测任务的微调和评估。

与多种单模态(SNN, TransMIL, PANTHER等)和多模态(MCAT, MOTCat, CMTA, SurvPath等)方法进行比较。特别地,作者还与专门为缺失模态设计的G-HANet, LD-CVAE, DisPro进行了比较。评估指标C-IndexAUCF1-score

3.2 生存预测结果

3.3 精准诊断任务结果

在四项精准诊断任务(癌症分期和基因突变预测)中,MSRLAUCF1分数上均取得了最高性能。在主要依赖形态学特征的癌症分期任务中,现有的基因重建方法(如G-HANet)由于引入了噪声,其性能甚至低于纯WSI方法。而MSRL通过其预训练和结构化学习,有效增强了WSI编码器的表示能力,取得了更好的性能。

3.4 结构与损失消融分析