PG-TFNet：基于Transformer的融合网络整合病理图像与基因组数据用于癌症生存分析.

paper：PG-TFNet: Transformer-based Fusion Network Integrating Pathological Images and Genomic Data for Cancer Survival Analysis

0. TL; DR

PG-TFNet (Pathological Images and Genomic Data Transformer-based Fusion Network)是一种整合病理图像与基因组数据的Transformer融合网络，用于癌症生存分析。其核心创新在于：

多尺度病理特征融合：提出了一个基于transformer的特征融合模块，用于融合来自不同放大倍数的多尺度病理图像，从而充分利用patches之间的模态内关系。
跨注意力Transformer融合：引入了一个跨注意力Transformer模块，通过在两个transformer分支之间交换不同模态的特征表示，来实现病理图像和基因组数据的有效模态间特征融合。

作者在来自TCGA的结直肠癌数据集上进行了10折交叉验证实验，该数据集包含配对的whole-slide images和基因组数据以及真实的生存数据。实验结果表明，PG-TFNet促进了结直肠癌的预后预测，并显示出优于现有方法的性能。

1. 背景介绍

结直肠癌（Colorectal cancer, CRC）是全球第三大常见恶性肿瘤和第二大癌症死因，其诊断和预后严重依赖于病理切片、基因组数据和临床信息等多模态数据。然而，由于这些数据模态的异质性，从中进行准确的生存预测极具挑战性。

传统的生存分析模型，如Cox proportional hazards (Cox) 模型及其变体（LASSO-Cox, En-Cox），需要手工设计的特征，并且缺乏多模态融合机制。近年来，基于deep learning的多模态整合方法被引入到癌症生存分析中。

简单融合方法：许多方法，如DeepCorrSurv和Genomic Survival Convolutional Neural Network，采用最直接的特征向量拼接（concatenation）来整合多模态数据。
更复杂的融合方法：一些方法尝试了更复杂的融合策略，如Kronecker积（Pathomic Fusion, GPDBN）来建模成对特征交互。

然而，这些方法仍然存在一些局限性：

忽略WSI的结构信息：它们大多基于对独立的病理图像patches的分析，忽略了patches之间的相互关系以及在更大视野下的形态学结构信息。
融合效率不足：未能有效利用神经网络强大的表示学习能力，来克服病理图像和基因组数据之间的异质性，实现高效的多模态融合。

因此，作者提出了PG-TFNet，旨在通过引入transformer来更好地利用WSI的内部结构信息，并通过一个cross-attention机制来实现更有效的多模态特征融合。

1. 方法介绍

PG-TFNet的框架如图所示，主要包含三个模块：基于transformer的多尺度病理特征融合模块、基于跨注意力transformer的多模态特征融合模块，以及整合了临床数据的最终Cox层。

2.1 基于Transformer的多尺度特征融合 (Multi-scale Feature Fusion)

为了克服传统方法仅分析孤立patches的局限性，作者提出了MSP-TFNet (Multi-Scale Pathological feature fusion Network) 模块，旨在从不同放大倍数的病理图像中提取和利用特征。

根据病理学家的经验，作者选择了三个尺度的图像作为输入：1x放大倍率的病理图像全局图、5x的肿瘤区域图，以及从5x区域中裁剪出的16个20x的肿瘤patches。使用基于resnet的三个分支网络，分别从这三个尺度的图像中提取特征向量。

将1x和5x图像的特征向量拼接成一个整体特征向量$x_h$。然后，将$x_h$、16个20x patches的特征向量$x_1, …, x_{16}$以及一个可学习的类别标记（class token）$x_{cls}$拼接起来，形成一个多尺度特征序列。

为了保留空间信息，为该序列添加一个固定的位置编码向量$x_{pos}$。最终的输入序列为：$x = [x_{cls}, x_h, x_1, x_2, …, x_{16}] + x_{pos}$

将输入序列$x$送入一个由$M$个标准transformer编码器堆叠而成的模块。每个编码器都包含一个multi-headed self-attention (MSA) 块和一个线性层。通过MSA，模型能够自然地捕捉序列中不同尺度、不同位置的patch特征之间的内在关系。

2.2 基于跨注意力的多模态特征融合 (Multimodal Feature Fusion)

为了有效融合异质的病理学特征和基因组学特征，作者引入了一个cross-attention transformer module。输入：

病理学特征：来自MSP-TFNet的融合特征向量$p$，它由类别标记$p_{cls}$和特征标记$p_f$组成。
基因组学特征：通过一个MLP从基因表达谱中提取的特征向量$g$，同样由$g_{cls}$和$g_f$组成。

该模块包含两个并行的transformer分支，通过交换特征表示来实现跨模态信息融合。

上分支 (病理学)：首先，将病理学的类别标记$p_{cls}$与基因组学的特征标记$g_f$组合，输入一个transformer，得到一个新的向量$p’$。然后，将$p_{cls}$与$p’$中的类别标记 $p'_{cls}$ 相加，再与病理学的特征标记$p_f$组合，送入第二个transformer，生成跨模态特征向量$p_{cross}$。

\[p' = \text{Transformer}([p_{cls}, g_f])\\ p_{cross} = \text{Transformer}([p_{cls} + p'_{cls}, p_f])\]

下分支 (基因组学)：以类似的方式，计算出另一个跨模态特征向量$g_{cross}$。

\[g' = \text{Transformer}([g_{cls}, p_f])\\ g_{cross} = \text{Transformer}([g_{cls} + g'_{cls}, g_f])\]

最终，将两个分支输出的类别标记$p_{cross}^{cls}$和$g_{cross}^{cls}$相加，作为病理图像和基因表达谱的多模态融合特征。

2.3 整合临床数据的Cox层

将上一步得到的多模态融合特征与临床数据（如年龄、性别、分期）拼接起来，作为最终的输入向量$h$。

Cox层是一个单节点的输出层，作为Cox比例风险回归的线性预测器，输出一个用于生存预测的预后指数。采用带有L2正则化的平均负对数偏似然（average negative log partial likelihood）作为目标函数。

\[L(\Theta) = - \frac{1}{n_E} \sum_{i \in E} \left( h_i \beta - \log \sum_{j \in R(T_i)} \exp(h_j \beta) \right) + \lambda(||\Theta||_2)\]

3. 实验分析

3.1 实验设置

使用了来自TCGA的结直肠癌数据集，共522名患者，包含H&E染色的病理图像、基因表达谱和临床数据。从WSI中提取了4512套多尺度病理图像；从基因表达谱中筛选出1617个差异表达基因。

将PG-TFNet与多种经典的生存预测方法进行比较，包括LASSO-Cox, EN-Cox, BoostCI, DeepCorrSurv, 和GPDBN。使用concordance index (C-index) 和 Kaplan-Meier生存分析（及log-rank检验）。

3.2 性能评估

基于deep learning的方法普遍优于非deep learning的方法。PG-TFNet取得了最高的C-index值（0.816 ± 0.016），比第二名的GPDBN高出3.7%，比表现最差的En-Cox高出10.7%。PG-TFNet高效的多模态特征整合能力促进了结直肠癌的预后预测。

Method	C-index
LASSO-Cox	0.748 ± 0.014
En-Cox	0.709 ± 0.021
BoostCI	0.721 ± 0.019
DeepCorrSurv	0.766 ± 0.017
GPDBN	0.779 ± 0.020
PG-TFNet	0.816 ± 0.016

作者使用预测的预后指数的70分位数作为风险阈值，将患者分为高风险和低风险组。PG-TFNet的生存曲线分离得最清晰，其log-rank test的P值为5.861e-08，显著低于所有其他方法。PG-TFNet能够更明确地区分出短期和长期存活者。

3.3 消融研究

作者评估了四种不同的模型配置，其中(MS)PG-TFNet是完整的PG-TFNet。

SSPG-TFNet（单尺度病理+Transformer融合）的性能（0.803）显著高于SSPG-CFNet（单尺度病理+拼接融合）（0.747），证明了cross-attention transformer融合模块的有效性。
MSPG-CFNet（多尺度病理+拼接融合）的性能（0.771）优于SSPG-CFNet（0.747），证明了多尺度病理特征融合模块的有效性。
完整的PG-TFNet取得了最佳性能（0.816），表明两个核心模块都对性能提升有贡献。

消融研究进一步证实了PG-TFNet中基于transformer的多尺度特征融合模块和基于跨注意力的多模态特征融合模块的优越性。

Method	C-index
SSPG-TFNet	0.803
SSPG-CFNet	0.747
MSPG-CFNet	0.771
(MS)PG-TFNet	0.816