0. TL; DR

MSRL（Multi-modal Structural Representation Learning）框架通过Graph Structure Learning (GSL) 预训练一个多模态表示图，从数据本身学习并构建病例间的相关性。在微调阶段，模型动态地捕捉当前病例与训练集中已有病例之间的结构相关性。MSRL利用图结构，将已有诊断病例的真实基因组数据作为辅助信息，从而能够基于单一的组织病理学图像模态进行有效的推理。

作者在包含7,263个病例的公共TCGA数据集上，对MSRL进行了包括生存预测、癌症分级和基因突变预测在内的多种任务评估。结果表明，MSRL显著优于现有的缺失基因组数据生成方法，在生存预测任务上的C-Index提升了1.44%至3.12%，并达到了与多模态融合方法相当的性能。

1. 背景介绍

Histopathology whole slide images (WSIs)（组织病理学全切片图像）和genomics（基因组学）数据是癌症生存分析中两种互补且重要的数据源。前者描述了肿瘤的形态学特征，后者则揭示了其潜在的分子驱动机制。将两者融合的多模态学习方法，相比单模态方法，能为癌症诊断提供更全面、更个性化的表示。

然而，一个严峻的现实挑战是，基因组学数据的采集成本高昂，导致在许多实际的临床推理场景中，只有WSI而没有配对的基因组学数据。为了解决这一模态缺失问题，研究人员开始探索从可用的WSI中重建缺失的基因组学特征。

现有的重建方法主要分为两类：

辅助任务 (Auxiliary tasks)：在训练过程中，增加一个重建基因组数据的辅助任务，通过重建损失或蒸馏损失来促使模型学习WSI与基因组特征之间的关联。
生成式方法 (Generative approaches)：使用生成模型（如VAE），在WSI的条件下合成缺失的基因组特征。

尽管这些方法部分解决了模态缺失问题，但它们仍存在两个主要局限性：

忽略病例间的潜在关联：它们通常只依赖于单个病例的WSI来预测其基因组特征，而忽略了不同病例之间可能存在的、对于诊断至关重要的关联性。
未充分利用可用的真实数据：在推理阶段，这些方法完全依赖于合成的基因组特征，而忽略了训练数据中存在的、与当前待测病例在诊断上相关的病例的真实（authentic）基因组数据。

因此，作者提出了MSRL框架，旨在通过学习病例间的结构化关联，并利用已有的真实基因组数据作为辅助，来实现更高效、更准确的单WSI模态推理。

2. MSRL 框架

MSRL框架包含两个阶段：多模态结构化表示预训练和微调/推理。

预训练阶段的目标是利用大规模的泛癌种数据，通过自监督的Graph Structure Learning (GSL) 来学习一个多模态表示图，该图能够捕捉病例之间的内在关联。

作者为每个病例构建了三种图：组织病理学图$G_H={H, A_H}$，基因图$G_G={G, A_G}$，以及融合多模态图$G_F={F, A_F}$。其中，$H, G, F$分别是病例的WSI特征、基因组特征和融合特征的集合（作为图的节点特征），$A$是邻接矩阵。

GSL的核心是一个可参数化的Graph Learner，它能根据输入的节点特征自适应地推断出优化的图结构（即邻接矩阵）。预训练目标：

模态内GSL (Intra-modality GSL)：通过对比学习，最大化同一病例在同一模态下经过不同图结构（原始图 vs. 增强图）编码后的表示的一致性。这有助于发现每个模态内部病例间的关联。损失函数为$L_{intra}$。
模态间GSL (Inter-modality GSL)：同样通过对比学习，最大化同一病例在不同模态下（WSI vs. 基因组）的表示的一致性。这有助于对齐两种模态的表示空间。损失函数为$L_{inter}$。
融合模态GSL (Fused-modality GSL)：确保融合后的多模态表示能够保留各单模态的特有属性。通过最大化同一病例的融合表示与各单模态表示之间的一致性来实现。损失函数为$L_{fused}$。

经过预训练，模型学习到了一个泛化的、能够捕捉病例间多模态关联的图结构。

2.2 多模态结构化表示微调与推理

微调阶段的核心是一个online-target双分支架构和一个特征buffer机制。双分支训练：

Online Branch：只接收WSI数据作为输入，旨在模拟推理时的单模态场景。由于缺乏基因组输入，作者设计了一个Inductor模块（一个SNN网络），它以WSI表示为输入，生成一个genomics prompt作为缺失基因组数据的占位符。
Target Branch：接收完整的WSI和基因组数据作为输入。它的作用是为online branch提供指导。其参数通过EMA（指数移动平均）的方式从online branch更新，以防止模型坍塌。

Buffer用于存储训练集中所有病例的完整多模态特征。在推理阶段，当只有WSI输入时，这个buffer提供了可用的真实基因组数据源。Buffer中的特征会随着target branch的训练而动态更新（FIFO策略），以保持其表示的时效性。

对于online branch（或target branch），将当前mini-batch中的病例特征与从buffer中读取的历史病例特征相结合。将合并后的特征输入到预训练好的GSL模块中，动态地构建一个包含当前病例和历史病例的图。最后，通过一个GCN编码器在该图上进行信息传播，得到最终的节点表示$Z$（或$\hat{Z}$）。

为了将target branch的知识迁移到online branch，作者设计了三个层次的对齐损失：

特征对齐 ($L_{f align}$)：对齐图学习前的融合特征$f$和$\hat{f}$。
图表示对齐 ($L_{g align}$)：对齐图学习后的节点表示$Z$和$\hat{Z}$。
结构对齐 ($L_{s align}$)：对齐两个分支学习到的图结构（邻接矩阵）$A_r$和$\hat{A}_r$。

在推理时，只使用训练好的online branch。对于一个新的WSI，通过Inductor生成genomics prompt，然后结合buffer中的历史真实数据，通过Graph Forward过程得到最终的表示，并进行预测。

3. 实验分析

3.1 实验设置

在TCGA泛癌数据集（6,361个病例）上进行预训练。在五个TCGA队列（BLCA, BRCA, STAD, HNSC, COADREAD）上进行生存预测任务的微调和评估。

与多种单模态（SNN, TransMIL, PANTHER等）和多模态（MCAT, MOTCat, CMTA, SurvPath等）方法进行比较。特别地，作者还与专门为缺失模态设计的G-HANet, LD-CVAE, DisPro进行了比较。评估指标C-Index、AUC、F1-score。

3.2 生存预测结果

MSRL vs. WSI-only方法：在仅使用WSI进行推理的设置下，MSRL（即MSRL g.+h.→h.）的性能显著优于所有单模态WSI方法。例如，其总体C-Index比state-of-the-art的foundation model TITAN高出5.51%。这证明MSRL能有效提升WSI的诊断价值。
MSRL vs. 缺失模态方法：MSRL的表现优于所有为缺失模态设计的基线方法。与G-HANet, LD-CVAE, DisPro相比，其总体C-Index分别提升了3.12%, 2.45%和1.44%。这是因为MSRL通过图结构学习引入了病例间的关联，并利用了真实的基因组数据进行引导，从而实现了更准确的基因组特征重建。
MSRL vs. 多模态融合方法：即使在仅使用WSI推理的情况下，MSRL的性能也与先进的多模态融合方法（如MCAT, CMTA）相当。
MSRLmulti：当在微调和推理时都使用完整的WSI和基因组数据时，MSRLmulti取得了最佳性能，总体C-Index比第二好的方法高出1.03%。这证明了MSRL引入的多模态结构化表示图能有效增强WSI和基因组特征的融合。

3.3 精准诊断任务结果

在四项精准诊断任务（癌症分期和基因突变预测）中，MSRL在AUC和F1分数上均取得了最高性能。在主要依赖形态学特征的癌症分期任务中，现有的基因重建方法（如G-HANet）由于引入了噪声，其性能甚至低于纯WSI方法。而MSRL通过其预训练和结构化学习，有效增强了WSI编码器的表示能力，取得了更好的性能。

3.4 结构与损失消融分析

GSL的有效性：与使用静态KNN图相比，使用GSL动态学习图结构能带来显著性能提升。即使是随机初始化的GSL（MSRLrandom GSL）也优于KNN，而经过预训练的GSL（MSRL）性能最佳。
Buffer的有效性：如果buffer的更新使用online branch的特征（即没有真实基因组信息引导），模型性能会下降（MSRLonline buffer），证明了引入真实基因组数据来构建关联的重要性。
损失函数的有效性：移除分层对齐损失（$L_{f align}, L_{g align}, L_{s align}$）中的任何一项都会导致性能下降，其中移除结构对齐损失$L_{s align}$的影响最大。