0. TL; DR

HFBSurv是一种分层多模态融合方法，采用factorized bilinear model（分解双线性模型）来逐步融合基因组和图像特征。分层融合策略将融合问题分解为不同的层次，信息从低层逐步整合并传递到高层。在分层框架中，作者设计了特定于模态的和跨模态的意力分解双线性模块。这些模块不仅能捕捉和量化多模态数据中的复杂关系，还显著降低了计算复杂度。

作者在TCGA乳腺癌数据集上进行了广泛的实验，结果表明，HFBSurv通过有效的分层多模态数据融合，其性能一致地优于其他state-of-the-art的生存预测方法。

1. 背景介绍

癌症是全球主要的死亡原因，准确预测其生存率对于临床医生规划治疗方案和提高患者生活质量至关重要。

从计算角度看，生存预测通常被建模为对患者生存时间的回归。传统的Cox proportional hazards (CoxPH) 模型及其各种扩展（如LASSO正则化、深度神经网络）已被成功应用。研究人员尝试了多种数据源作为预测的生物标志物：

基因组数据：如基因表达谱和拷贝数变异（CNA），已被证明在识别预后因素和预测生存方面具有巨大潜力。
病理图像：whole-slide images提供了细胞形态学属性的洞察，这些属性与癌症患者的生存密切相关。

随着对癌症异质性认识的加深，整合上述多模态数据成为提高预测性能的关键。基于deep learning的多模态融合方法因其灵活性和非线性建模能力而备受关注。其中，使用Kronecker product进行融合的技术，因其能有效建模特征间的成对交互而显示出优越性。

然而，现有基于Kronecker product的方法存在两个主要问题：

高复杂性与过拟合风险：Kronecker product会产生二次扩展的高维特征，引入大量参数，导致计算成本高昂且容易过拟合。
单次融合的局限性：现有方法通常只进行一次性的“扁平”融合，这难以深入挖掘多模态数据中蕴含的丰富信息和复杂关系。

考虑到这些局限，作者提出了HFBSurv (Hierarchical Factorized Bilinear fusion for cancer Survival prediction)，一种新颖的多模态方法，旨在通过分层融合和分解双线性模型，以更高效、更深入的方式整合基因组和病理图像数据。

2. HFBSurv 模型

2.1 模型架构

HFBSurv的整体架构如图所示，它采用分层的方式逐步融合三种模态的数据：病理图像（p）、拷贝数变异（c）和基因表达（g）。

首先，将来自三种模态的预处理特征（经过特征选择）通过各自的fully connected (FC) 层映射到一个相似的嵌入空间，以缓解不同模态间的统计属性差异。

每个模态的嵌入$f_m$被送入一个modality-specific attentional factorized bilinear module (MAFB)。MAFB的输出是两个部分：一个捕捉了模态内部关系的modality-specific representation $\hat{f}_m$ ，和一个量化该模态重要性的权重 $a_m$ 。低层融合的最终输出 $f_{low}$ 是所有模态特定表示的加权平均： $f_{low} = \sum_m a_m \hat{f}_m$ 。

低层输出的模态特定表示 $\hat{f}_m$ 被两两送入一个cross-modality attentional factorized bilinear module (CAFB)。CAFB的输出是捕捉了两种模态间关系的cross-modality representation $\hat{f}_{m_1m_2}$ ，和其对应的权重 $a_{m_1m_2}$ 。高层融合的最终输出 $f_{high}$ 是所有跨模态表示的加权平均： $f_{high} = \sum_{m_1 \neq m_2} a_{m_1m_2} \hat{f}_{m_1m_2}$ 。

将低层和高层融合的输出拼接起来，得到最终的综合多模态表示$f_M = f_{low} \oplus f_{high}$。$f_M$通过一个包含两个FC层的预测模块，最后送入一个Cox层进行生存预测。

2.2 分解双线性模型 (Factorized Bilinear Model)

传统的全双线性模型通过一个大的投影矩阵$W_i$来捕捉特征向量$x$内的成对交互（$z_i = x^T W_i x$），但这会导致参数量巨大。作者采用了factorized bilinear model来解决这个问题。

2.2.1 MAFB：模态内关系建模

在低层融合中，MAFB模块用于捕捉每个模态内部的特征关系。将全双线性模型中的投影矩阵$W$分解为两个低秩矩阵$U_m$和$V_m$。

\[z_{m,i} = f_m^T W_i f_m = \sum_{d=1}^k f_m^T u_{m,d} v_{m,d}^T f_m = e^T(U_{m,i}^T f_m \odot V_{m,i}^T f_m)\]

其中，$\odot$表示哈达玛积（Hadamard product）。通过这种矩阵分解，参数量被显著减少。

为了量化每个模态的重要性，MAFB还包含一个单模态注意力机制。它通过一个sigmoid激活的FC层，为每个模态的特定表示$\hat{f}_m$（由原始嵌入$f_m$和双线性特征$z_m$拼接而成）生成一个重要性权重$a_m$。

\[a_m = \text{Sigmoid}(w_m \hat{f}_m + b_m)\]

2.2.2 CAFB：跨模态关系建模

在高层融合中，CAFB模块用于探索不同模态之间的关系。它将来自低层的两个不同模态的加权表示（ $a_{m_1}\hat{f}_{m_1}$ 和 $a_{m_2}\hat{f}_{m_2}$ ）作为输入，通过类似的分解双线性模型来生成跨模态表示 $\hat{f}_{m_1m_2}$ 。

\[\hat{f}_{m_1m_2, i} = e^T \left( U_{m_1,i}^T(a_{m_1}\hat{f}_{m_1}) \odot V_{m_2,i}^T(a_{m_2}\hat{f}_{m_2}) \right)\]

为了识别不同模态对的重要性，CAFB设计了一个双模态注意力机制。它首先计算两个模态加权表示之间的相似度$S_{m_1m_2}$，然后结合两个模态的单模态注意力权重$a_{m_1}$和$a_{m_2}$，来计算最终的跨模态重要性权重$a_{m_1m_2}$。

\[a_{m_1m_2} = \frac{\exp(\hat{a}_{m_1m_2})}{\sum_{m_i \neq m_j} \exp(\hat{a}_{m_im_j})}, \\ \text{where } \hat{a}_{m_1m_2} = a_{m_1} + a_{m_2}S_{m_1m_2} + S_0\]

2.3 模型训练

模型采用Cox partial likelihood loss（Cox偏似然损失）与L1正则化进行端到端的训练。

\[\mathcal{L}(\theta) = - \sum_{i:E_i=1} \left[ \hat{h}_\theta(x_i) - \log \sum_{j:T_j > T_i} \exp(\hat{h}_\theta(x_j)) \right] + \lambda(||\theta||_1)\]

3. 实验分析

3.1 实验设置

数据集使用了TCGA的乳腺癌队列（1015名患者），并扩展到其他10种癌症类型进行泛化性验证。

对基因表达和CNA数据进行了归一化和特征选择。对病理图像，提取了2343个量化特征，并同样进行了特征选择。

评估指标使用Concordance Index (C-index) 和AUC。将HFBSurv与多种单融合策略（如直接拼接、逐元素相加、决策融合、张量融合）以及其他SOTA的生存预测方法（如DeepSurv, GPDBN, Pathomic Fusion）进行比较。

3.2 HFBSurv的评估

分层融合 vs. 单次融合：HFBSurv（0.766）的C-index显著优于所有单次融合方法，例如比最好的单次融合方法Tensor fusion（0.681）高出约8.5%。这表明分层融合策略能更有效地捕捉多模态数据中的复杂关系。
MAFB与CAFB的有效性：仅使用低层融合（Low和LowAtt）的性能已经优于所有单次融合方法，证明了MAFB模块在捕捉模态内关系方面的有效性。而加入高层融合后（High和HFBSurv），性能得到进一步的巨大提升，证明了CAFB在探索跨模态关系上的关键作用。
注意力的作用：无论是单模态注意力（LowAtt vs. Low）还是双模态注意力（HFBSurv vs. High*），加入注意力机制都带来了性能提升。

该图展示了不同方法对患者进行高/低风险分层的Kaplan-Meier曲线。HFBSurv（P-value = 2.7014e-27）能够最清晰地将高风险和低风险患者分离开，其P值比最好的单融合方法Tensor fusion（P-value = 5.2203e-15）低了多个数量级。以上结果清晰地证明了HFBSurv在多模态融合和生存预测方面的优越性。

3.3 与现有方法的性能比较

与包括RSF, En-Cox, LASSO-Cox等传统方法，以及DeepSurv, MDNNMD, GPDBN, Pathomic Fusion等基于深度学习的方法相比，HFBSurv在C-index和AUC指标上均取得了最佳性能。特别地，与同样基于Kronecker product思想的GPDBN和Pathomic Fusion相比，HFBSurv的性能提升显著，这得益于其分层融合策略和参数高效的分解双线性模型。