基于组织病理学全切片图像的组织基因组学知识与癌症预后关联.

0. TL; DR

G-HANetGenome-informed Hyper-Attention Network)是一个旨在通过有效学习组织-基因组关联来提升单模态WSI(全切片图像)推理性能的新颖网络。G-HANet在训练阶段学习组织-基因组的关联知识,但在推理阶段仅需WSI输入,解决了基因组数据缺失的瓶颈。

通过从WSI重建基因组数据,CAB能有效蒸馏功能性基因型和形态学表型之间的关联,并在特征空间中提供对基因表达谱的洞察。HSB利用CAB蒸馏出的组织-基因组关联以及基于形态学生成的权重,从组织病理学和基因组学两个角度对WSI进行超注意力建模,以改善癌症预后。

作者在五个TCGA基准数据集上进行了广泛的实验。结果表明,G-HANet不仅显著优于state-of-the-art的纯WSI方法,而且与基于基因组和多模态的方法相比也具有竞争力。G-HANet有望成为一个有用的工具,以解决当前癌症预后和精准肿瘤学背景下组织-基因组数据配对不足的瓶颈。

1. 背景介绍

生存分析在癌症研究中具有巨大的临床价值,它有助于评估生存状态、比较不同患者群体的生存率,并识别关键的预后因素。在临床实践中,组织病理学whole slide image (WSI)genomic data(基因组数据)是癌症预后的两大重要数据来源。WSI提供了对肿瘤组织形态和空间结构的定性洞察,而基因组数据则从微观角度提供了定量的分子概览。

近年来,许多基于WSI的单模态算法和基于基因组的单模态算法被提出。此外,许多组织-基因组多模态算法也展示了其在精准医疗中的优越能力。然而,这些多模态方法有一个共同的局限性:它们在推理时需要所有模态的数据都可用。但在现实中,基因组测序对于许多癌症患者来说仍然是昂贵的,特别是在欠发达地区。这严重阻碍了多模态算法在临床实践中的广泛应用。

一个潜在的解决方案是利用现有的组织-基因组配对数据,将多模态知识蒸馏到一个单模态(仅WSI)网络中。然而,现有的knowledge distillation (KD) 策略大多为传统分类任务设计,可能不适用于生存预后这一独特的优化目标。此外,训练一个“教师”网络(多模态)和一个“学生”网络(单模态)的过程通常是繁琐且计算密集型的。

因此,作者旨在探索一种更优的策略,即在训练阶段有效学习组织-基因组的关联,以提升在推理阶段仅依赖WSI的单模态网络的性能。为此,作者提出了G-HANet

2. G-HANet 方法

G-HANet的整体框架如图所示。它包含数据处理步骤和G-HANet生存预后网络。G-HANet网络本身又由两个核心分支组成:cross-modal associating branch (CAB)hyper-attention survival branch (HSB)

2.1 数据处理

遵循multiple-instance learning (MIL) 范式,一张WSI被视为一个由多个patch实例组成的“bag”。首先,通过自动分割算法将WSI裁剪成一系列不重叠的patches。然后,使用一个预训练的编码器$E$将每个patch转换为一个$d$维的特征向量,形成一个特征包$F_p = {f_i}_{i=1}^{N_p} \in \mathbb{R}^{N_p \times d}$。

基因组谱根据其生物学功能被分为六类:肿瘤抑制、致癌、蛋白激酶、细胞分化、转录、细胞因子和生长。为了减少冗余并聚焦于与预后相关的基因,作者首先使用DESeq2在训练数据上进行差异分析,以识别高风险和低风险患者之间表达差异显著的基因。

2.2 跨模态关联分支 (CAB)

CAB旨在通过从WSI重建功能性基因数据来蒸馏组织-基因组的关联。CAB通过两个multi-head cross-attention (MHCA) 模块从WSI patch特征包$F_p$中提取特征。

在第一个MHCA模块中,使用一组可学习的tokens $T$作为query,从$F_p$中收集与基因组功能相关的形态学特征。在第二个MHCA模块中,将$T$与第一个模块的输出相加,作为新的query,再次从$F_p$中提取特征。这样可以确保更敏感地捕捉到相关特征。

\[f_{F1} = FFN_0(\text{MHCA}_0(T, F_p))\\ f_{F2} = FFN_1(\text{MHCA}_1(T + f_{F1}, F_p))\]

第二个MHCA模块在softmax操作之前的注意力矩阵被作为最终的组织-基因组association matrix(关联矩阵)$M_{am}$。将CAB提取出的功能性特征$f_{F2}$送入$N_g$个独立的Self-Normalizing Networks (SNNs),每个SNN负责重建一个功能类别的基因表达谱。

2.3 超注意力生存分支 (HSB)

HSB旨在为患者生成一个全面的预后表示,并进行最终的生存预测。

输入WSIpatch特征包$F_p$和从CAB得到的关联矩阵$M_{am}$。HSB通过两种方式为每个patch生成权重:

将上述两种权重进行平均,得到最终的超注意力矩阵。

\[M_{hyper} = \frac{w_{mor} + \text{softmax}_{k\%}(M_{am})}{2}\]

使用$M_{hyper}$对$F_p$进行加权求和,得到基因组信息引导的特征$f_{GI}$。

将$f_{GI}$和来自CAB的功能性特征$f_{F2}$拼接起来,作为代表WSI的最终特征矩阵$f_m$。这一步不仅丰富了特征,也建立了两个分支之间的协同作用,允许梯度在两个分支间反向传播。将$f_m$送入一个MHSA模块和FFN网络,以建立特征间的长程依赖。将输出特征展平后,通过一个分类层和sigmoid函数来估计患者的风险。

总损失函数由两部分组成:

  1. 基因组重建损失:由均方误差损失$L_{MSE}$和缩放余弦误差损失$L_{SCE}$组成,分别关注基因表达水平和功能基因组分布。
  2. 生存预测损失:使用负对数似然损失$L_{NLL}$。

3. 实验分析

3.1 实验设置

数据集使用了TCGA中的五个癌症队列:BLCA, BRCA, GBMLGG, LUAD, UCEC

评估指标使用concordance index (c-index)Brier Score (BS)Kaplan-Meier (KM) 分析。与多种单模态(SNN, TransMIL等)、多模态(MCAT, Porpoise等)以及知识蒸馏(KD)的SOTA方法进行比较。

3.2 实验结果

3.2.1 与SOTA方法的比较

3.2.2 消融研究

3.2.3 生存分析与可解释性

KM曲线显示,G-HANet在所有五个数据集上都能将高风险和低风险患者显著地区分开(p-value均<0.05)。与WSI-based SOTA方法TransMIL相比,G-HANet在四个数据集上取得了更低的p-value,并且能更清晰地区分两组患者。

该图可视化了特定的组织病理学patches与不同功能基因类别之间的关联。可以观察到,肿瘤抑制基因和致癌基因相关的形态学模式有明显区别,而与致癌基因相关的区域和与细胞因子相关的区域则倾向于重叠。这些可视化结果不仅有助于理解模型的预测机制,还可能为病理学家提供有价值的洞察,增强了模型的可信度。