深度生物通路引导的病理学-基因组多模态生存预测.

paper：Deep Biological Pathway Informed Pathology-Genomic Multimodal Survival Prediction

0. TL; DR

PONET是一个由生物学通路知识引导的病理-基因组深度模型，将生物学通路知识显式地编码到网络结构中，通过一个稀疏的基因-通路网络来处理基因表达数据，增强了模型的生物学可解释性。模型采用了一个包含单模态、双模态和三模态融合的三层分层融合框架，通过分解双线性模型和图融合网络逐步深入地捕捉和量化模态内和模态间的复杂关系。

作者在六个TCGA数据集上进行的实证结果表明，PONET取得了优越的预测性能，并揭示了有意义的生物学解释。该方法为如何在多模态生物医学数据上训练具有生物学知识的深度网络提供了见解，并具有在理解疾病、预测治疗反应和耐药性方面应用的普遍潜力。

1. 背景介绍

通过病理学家对H&E染色的肿瘤组织切片进行手动检查，是目前癌症诊断的state-of-the-art。deep learning在数字病理学中的进步，使得利用whole-slide images (WSIs) 进行计算图像分析成为可能。同时，genomics data（基因组数据）可以提供对肿瘤的深度分子表征，为发现预后和预测性生物标志物提供了机会。

因此，癌症预后预测已成为一个多模态问题。然而，整合WSIs和基因组学数据面临着一些挑战：

数据异质性：WSIs尺寸巨大，而基因组数据则是高维的表格数据，两者之间存在巨大的数据异质性鸿沟。
融合机制的局限：简单的融合机制（如拼接）无法充分挖掘模态间的复杂交互。基于Kronecker product的融合方法虽然强大，但会引入大量参数，导致高计算成本和过拟合风险。大多数方法采用单次融合策略，难以深入挖掘多模态数据中的丰富信息。

为了提升预测性能和生物学可解释性，将先验的生物学知识（如biological pathway）整合到模型中是一种很有前途的策略。通路信息不仅有助于识别具有明确生物学功能的预后因素，还能使分析结果比单独使用基因表达数据更具可重复性。

基于以上挑战和机遇，作者提出了PONET，一个新颖的、由生物学通路知识引导的病理-基因组深度模型，旨在通过一个分层多模态融合框架，实现更优越的生存预测和更有意义的生物学解释。

2. PONET方法

PONET的模型架构如图所示。它包含三个输入模态：基因表达（g）、病理图像（p）和拷贝数+突变（c）。其核心是一个分层的、由分解双线性模型驱动的融合框架，以及一个为基因表达数据设计的稀疏网络。

2.1 稀疏网络 (Sparse Network)

为了将生物学先验知识整合到模型中，作者为基因表达数据设计了一个稀疏的基因-通路网络。

该网络由一个基因层和三个通路层组成。基因层与第一个通路层之间的连接由一个二元矩阵$M$控制，该矩阵编码了Reactome通路数据库中的基因-通路关系。如果基因$j$属于通路$i$，则$M_{ij}=1$，否则为0。通路层之间的连接同样由一个编码了通路间父子层级关系的二元矩阵控制。每层的输出$y$通过以下公式计算：$y = f((M * W)^T X + \epsilon)$

其中，$f$是tanh激活函数，$W$是可学习的权重矩阵，$X$是输入，$\epsilon$是偏置，*是哈达玛积。通过这种方式，只有在生物学上存在关联的节点之间才会进行信息传递，这增强了模型的可解释性。

2.2 分层分解双线性融合 (Hierarchical Factorized Bilinear Fusion)

PONET的核心是一个三层的分层融合框架，每一层都使用分解双线性模型来捕捉关系。

2.2.1 单模态融合 (Unimodal Fusion)

此层旨在捕捉每个模态内部的特征关系。对于每个模态的嵌入$h_m$，使用factorized bilinear model来捕捉其内部的成对特征交互，生成特征$z_m$。

\[z_{m,i} = h_m^T W_i h_m = \mathbf{1}^T (U_{m,i}^T h_m \odot V_{m,i}^T h_m)\]

这可以高效地通过SumPooling操作实现：

\[z_m = \text{SumPooling}(\tilde{U}_m^T h_m \odot \tilde{V}_m^T h_m, k)\]

将原始嵌入$h_m$和双线性特征$z_m$拼接起来，得到模态特定的表示$\hat{h}_m = h_m \oplus z_m$。通过一个sigmoid激活的稠密层，为每个$\hat{h}_m$计算一个重要性权重$\omega_m$。单模态融合的最终输出是所有加权模态特定表示的和：$h^u = \sum_m \omega_m \hat{h}_m$。

2.2.2 双模态与三模态融合 (Bimodal and Trimodal Fusion)

双模态融合层旨在捕捉不同模态之间的关系。它将来自单模态融合层的加权表示（如 $\omega_{m_1}\hat{h}_{m_1}$ 和 $\omega_{m_2}\hat{h}_{m_2}$ ）作为输入，通过类似的分解双线性模型生成跨模态表示 $\hat{h}_{m_1m_2}$ 。

\[\hat{h}_{m_1,m_2} = \text{SumPooling}(\tilde{U}_{m_1}^T (\omega_{m_1}\hat{h}_{m_1}) \odot \tilde{V}_{m_2}^T (\omega_{m_2}\hat{h}_{m_2}), k)\]

一个双模态注意力机制被用来计算每个跨模态表示的重要性权重$\omega_{m_1m_2}$。双模态融合的最终输出是所有加权跨模态表示的和：$h^b = \sum_{m_1 \neq m_2} \omega_{m_1m_2} \hat{h}_{m_1m_2}$。

三模态融合层将每个双模态融合的输出与剩余的那个单模态融合输出进行融合，以捕捉更高阶的交互。其结构与双模态融合类似，最终输出为$h^t$。

2.3 生存预测

将单模态、双模态和三模态融合的输出拼接起来，得到最终的综合多模态表示：$h^u \oplus h^b \oplus h^t$。

将最终表示送入一个Cox proportional hazards模型，并使用带有L1正则化的Cox partial likelihood loss进行端到端的训练。

\[\mathcal{L}(\Theta) = - \sum_{i:E_i=1} \left( \hat{h}_\Theta(x_i) - \log \sum_{j:T_j > T_i} \exp(\hat{h}_\Theta(x_j)) \right) + \lambda(||\Theta||_1)\]

3. 实验分析

3.1 实验设置

使用了TCGA中的六个癌症数据集：BLCA, KIRC, KIRP, LUAD, LUSC, PAAD。

对基因组数据进行了缺失值插补和特征选择。对病理图像，提取了2343个量化特征并进行了特征选择。使用一个在TCGA上通过自监督学习预训练的Vision Transformer (ViT) 模型来提取patch特征。

将PONET与CoxPH, DeepSurv以及多种SOTA的多模态生存预测模型（GPDBN, HFBSurv, Pathomic Fusion, Porpoise）进行比较。使用Concordance Index (C-Index)。

3.2 实验结果

3.2.1 与基线方法的比较

基于deep learning的方法普遍优于传统的CoxPH模型。PONET在所有六个癌症类型中都取得了最优的C-index值。与Pathomic Fusion, GPDBN, HFBSurv等同样基于bilinear model或Kronecker product思想的模型相比，PONET的性能更优，证明了其分层融合策略和通路引导网络的有效性。与Porpoise相比，PONET在大多数数据集上表现更好，特别是在BLCA, LUAD和PAAD上优势明显。

3.2.2 消融研究

分层融合策略（Unimodal + Bimodal, PONET）的性能优于所有单次融合策略（如Simple concatenation, Tensor fusion）。PONET通过增加三模态融合，性能比仅使用单模态和双模态融合的模型更好，证明了其深入挖掘模态间交互的能力。

与PASNet（仅一层通路层）和P-NET（对所有层输出取平均）相比，PONET的稀疏网络设计取得了更优的性能，证明了其分层传递生物先验知识的有效性。

3.2.3 模型解释与患者分层

模型内部解释 (a)：通过桑基图可视化PONET的内部层，可以追踪从输入基因到最终模型输出的影响路径。作者使用Integrated Gradients方法识别出对模型预测贡献最大的基因和通路。在KIRP数据集中，PONET识别出的高排名基因（如KRAS, RAC1）和通路（如下调的TGF-β受体信号通路）都是已知的肾癌驱动因素，这验证了模型的可解释性和生物学意义。
协同注意力可视化 (b)：作者采用了MCAT的协同注意力方法，来可视化排名靠前的通路与WSI空间区域的关联。热图显示，不同的通路在高注意力区域上表现出不同的空间模式，这反映了基因型-表型在癌症病理学中的关系。

PONET（P-Value = 6.60e-7）能够最显著地区分高风险和低风险患者，其分层效果优于其他变体。

3.2.4 复杂性比较

与基于Kronecker product的Pathomic Fusion和GPDBN相比，PONET和HFBSurv由于使用了分解双线性模型，其参数量和计算复杂度（FLOPS）都显著降低。PONET比HFBSurv有更多的参数，这主要源于其增加的三模态融合层。PONET在实现更优性能的同时，保持了相对较低的计算复杂度。