基于组织病理学全切片图像的组织基因组学知识与癌症预后关联.

paper：Histo-Genomic Knowledge Association for Cancer Prognosis From Histopathology Whole Slide Images

0. TL; DR

G-HANet（Genome-informed Hyper-Attention Network）是一个旨在通过有效学习组织-基因组关联来提升单模态WSI（全切片图像）推理性能的新颖网络。G-HANet在训练阶段学习组织-基因组的关联知识，但在推理阶段仅需WSI输入，解决了基因组数据缺失的瓶颈。

通过从WSI重建基因组数据，CAB能有效蒸馏功能性基因型和形态学表型之间的关联，并在特征空间中提供对基因表达谱的洞察。HSB利用CAB蒸馏出的组织-基因组关联以及基于形态学生成的权重，从组织病理学和基因组学两个角度对WSI进行超注意力建模，以改善癌症预后。

作者在五个TCGA基准数据集上进行了广泛的实验。结果表明，G-HANet不仅显著优于state-of-the-art的纯WSI方法，而且与基于基因组和多模态的方法相比也具有竞争力。G-HANet有望成为一个有用的工具，以解决当前癌症预后和精准肿瘤学背景下组织-基因组数据配对不足的瓶颈。

1. 背景介绍

生存分析在癌症研究中具有巨大的临床价值，它有助于评估生存状态、比较不同患者群体的生存率，并识别关键的预后因素。在临床实践中，组织病理学whole slide image (WSI) 和genomic data（基因组数据）是癌症预后的两大重要数据来源。WSI提供了对肿瘤组织形态和空间结构的定性洞察，而基因组数据则从微观角度提供了定量的分子概览。

近年来，许多基于WSI的单模态算法和基于基因组的单模态算法被提出。此外，许多组织-基因组多模态算法也展示了其在精准医疗中的优越能力。然而，这些多模态方法有一个共同的局限性：它们在推理时需要所有模态的数据都可用。但在现实中，基因组测序对于许多癌症患者来说仍然是昂贵的，特别是在欠发达地区。这严重阻碍了多模态算法在临床实践中的广泛应用。

一个潜在的解决方案是利用现有的组织-基因组配对数据，将多模态知识蒸馏到一个单模态（仅WSI）网络中。然而，现有的knowledge distillation (KD) 策略大多为传统分类任务设计，可能不适用于生存预后这一独特的优化目标。此外，训练一个“教师”网络（多模态）和一个“学生”网络（单模态）的过程通常是繁琐且计算密集型的。

因此，作者旨在探索一种更优的策略，即在训练阶段有效学习组织-基因组的关联，以提升在推理阶段仅依赖WSI的单模态网络的性能。为此，作者提出了G-HANet。

2. G-HANet 方法

G-HANet的整体框架如图所示。它包含数据处理步骤和G-HANet生存预后网络。G-HANet网络本身又由两个核心分支组成：cross-modal associating branch (CAB) 和hyper-attention survival branch (HSB)。

2.1 数据处理

遵循multiple-instance learning (MIL) 范式，一张WSI被视为一个由多个patch实例组成的“bag”。首先，通过自动分割算法将WSI裁剪成一系列不重叠的patches。然后，使用一个预训练的编码器$E$将每个patch转换为一个$d$维的特征向量，形成一个特征包$F_p = {f_i}_{i=1}^{N_p} \in \mathbb{R}^{N_p \times d}$。

基因组谱根据其生物学功能被分为六类：肿瘤抑制、致癌、蛋白激酶、细胞分化、转录、细胞因子和生长。为了减少冗余并聚焦于与预后相关的基因，作者首先使用DESeq2在训练数据上进行差异分析，以识别高风险和低风险患者之间表达差异显著的基因。

2.2 跨模态关联分支 (CAB)

CAB旨在通过从WSI重建功能性基因数据来蒸馏组织-基因组的关联。CAB通过两个multi-head cross-attention (MHCA) 模块从WSI patch特征包$F_p$中提取特征。

在第一个MHCA模块中，使用一组可学习的tokens $T$作为query，从$F_p$中收集与基因组功能相关的形态学特征。在第二个MHCA模块中，将$T$与第一个模块的输出相加，作为新的query，再次从$F_p$中提取特征。这样可以确保更敏感地捕捉到相关特征。

\[f_{F1} = FFN_0(\text{MHCA}_0(T, F_p))\\ f_{F2} = FFN_1(\text{MHCA}_1(T + f_{F1}, F_p))\]

第二个MHCA模块在softmax操作之前的注意力矩阵被作为最终的组织-基因组association matrix（关联矩阵）$M_{am}$。将CAB提取出的功能性特征$f_{F2}$送入$N_g$个独立的Self-Normalizing Networks (SNNs)，每个SNN负责重建一个功能类别的基因表达谱。

2.3 超注意力生存分支 (HSB)

HSB旨在为患者生成一个全面的预后表示，并进行最终的生存预测。

输入WSI的patch特征包$F_p$和从CAB得到的关联矩阵$M_{am}$。HSB通过两种方式为每个patch生成权重：

形态学权重 ($w_{mor}$)：通过一个gated attention network (GAN) 从$F_p$中直接学习，反映了patch本身的形态学重要性。
基因组学权重：对关联矩阵$M_{am}$进行处理（top k% softmax），得到从基因组学角度看的patch重要性。

将上述两种权重进行平均，得到最终的超注意力矩阵。

\[M_{hyper} = \frac{w_{mor} + \text{softmax}_{k\%}(M_{am})}{2}\]

使用$M_{hyper}$对$F_p$进行加权求和，得到基因组信息引导的特征$f_{GI}$。

将$f_{GI}$和来自CAB的功能性特征$f_{F2}$拼接起来，作为代表WSI的最终特征矩阵$f_m$。这一步不仅丰富了特征，也建立了两个分支之间的协同作用，允许梯度在两个分支间反向传播。将$f_m$送入一个MHSA模块和FFN网络，以建立特征间的长程依赖。将输出特征展平后，通过一个分类层和sigmoid函数来估计患者的风险。

总损失函数由两部分组成：

基因组重建损失：由均方误差损失$L_{MSE}$和缩放余弦误差损失$L_{SCE}$组成，分别关注基因表达水平和功能基因组分布。
生存预测损失：使用负对数似然损失$L_{NLL}$。

3. 实验分析

3.1 实验设置

数据集使用了TCGA中的五个癌症队列：BLCA, BRCA, GBMLGG, LUAD, UCEC。

评估指标使用concordance index (c-index)、Brier Score (BS) 和 Kaplan-Meier (KM) 分析。与多种单模态（SNN, TransMIL等）、多模态（MCAT, Porpoise等）以及知识蒸馏（KD）的SOTA方法进行比较。

3.2 实验结果

3.2.1 与SOTA方法的比较

与基因组方法比较：G-HANet（仅使用WSI推理）的性能与纯基因组方法（SNN）相当甚至更优。在BRCA和UCEC数据集上，G-HANet的c-index分别高出2.7%和3.2%。这证明了G-HANet通过在训练中引入基因组数据，能够从WSI中提取出关键的、具有高预后价值的特征。
与WSI方法比较：G-HANet的性能显著优于所有仅基于WSI的方法。例如，在BLCA和BRCA上，它比第二好的方法高出2.2%和2.3%。
与多模态方法比较：尽管在推理时只使用WSI，G-HANet仍然取得了与需要完整多模态数据的SOTA方法（如MCAT）相当的性能，并在UCEC数据集上超越了它们。这突显了G-HANet在数据利用上的高效性。
与知识蒸馏比较：简单的知识蒸馏（KD）策略并未在所有数据集上都带来性能提升，甚至在某些情况下会导致性能下降。这表明，由于网络架构的巨大差异，传统的KD策略并非将多模态知识迁移到单模态网络的最佳方案。而G-HANet的端到端设计则更为有效。

3.2.2 消融研究

CAB和HSB的有效性：通过与基线Model0（仅使用GAN建模WSI）的比较，可以清楚地看到，引入基因组数据以及CAB和HSB的设计，带来了显著的性能提升。
CAB内部设计：CAB2（使用MHCA）的性能优于CAB1（使用GAN），证明了跨注意力机制在关联基因型和表型方面的有效性。
HSB内部设计：完整的HSB优于其变体，证明了超注意力模块和特征桥接操作的有效性。
损失函数：同时使用MSE和SCE作为重建损失，其性能优于单独使用任何一种损失，表明两者能够保留互补的信息。

3.2.3 生存分析与可解释性

KM曲线显示，G-HANet在所有五个数据集上都能将高风险和低风险患者显著地区分开（p-value均<0.05）。与WSI-based SOTA方法TransMIL相比，G-HANet在四个数据集上取得了更低的p-value，并且能更清晰地区分两组患者。

该图可视化了特定的组织病理学patches与不同功能基因类别之间的关联。可以观察到，肿瘤抑制基因和致癌基因相关的形态学模式有明显区别，而与致癌基因相关的区域和与细胞因子相关的区域则倾向于重叠。这些可视化结果不仅有助于理解模型的预测机制，还可能为病理学家提供有价值的洞察，增强了模型的可信度。