脑肿瘤预后预测的多模态深度学习.

paper：Multimodal deep learning to predict prognosis in adult and pediatric brain tumors

0. TL; DR

本文提出了一个deep learning (DL) 框架，旨在融合histopathology images（组织病理学图像）和gene expression profiles（基因表达谱），以预测脑肿瘤的预后。

作者实现并比较了三种数据融合策略：early fusion（早期融合）、late fusion（晚期融合）和joint fusion（联合融合）。在一个包含783名成人和305名儿童患者的两个独立胶质瘤队列上，作者证明了开发的多模态数据模型相比单数据模型，在预测结果上取得了更好的性能。

多模态方法不仅提升了预测准确性，还帮助识别了更多相关的生物学通路。在包含97名成年患者的独立队列上进行的验证表明，该多模态框架具有良好的泛化能力。

1. 背景介绍

Glioma（胶质瘤）是最常见的脑肿瘤类型。其分类和分级传统上依赖于组织病理学特征，但2016年WHO的指南更新，建议将组织病理学诊断与分子标志物（如IDH1/2突变状态）相结合。这突显了多模态数据在精准诊断和预后预测中的重要性。

传统的生存分析方法，如Kaplan-Meier估计和Cox proportional hazards (Cox-PH) 模型，在处理当今日益增长的高通量、高维度生物医学数据时面临挑战。近年来，deep learning (DL)，特别是与Cox-PH模型结合的神经网络（如DeepSurv, Cox-nnet），已成为生存预测的有力工具，因为它们能够处理更复杂的非线性关系。

随着数字病理学和高通量测序技术的进步，研究人员开始探索将histopathological data（组织病理学数据）和genomic data（基因组数据）这两种性质迥异但互补的数据源进行融合。已有的研究（如Pathomic Fusion）已经证明，整合WSI和基因组特征的模型，其性能优于单模态模型。

然而，对于成人尤其是儿童脑肿瘤患者，仍然迫切需要能够准确预测临床结局、以辅助医生进行治疗决策的方法。因此，作者提出了一个全面的框架，旨在完全整合WSI和基因表达数据，为脑肿瘤的生存分析开发一个统一的模型。

2. 方法介绍

作者提出了一个基于DL的框架，该框架的核心是一个与Cox-PH输出模块相连的convolutional NN (CNN) 架构。该框架能够整合WSI和基因表达数据，并支持三种不同的数据融合策略。

2.1 数据预处理

对RNA-seq和microarray数据进行基因筛选、对数变换和z-score标准化，并使用Combat-Seq包进行批次效应校正。

仅选用formalin-fixed paraffin-embedded (FFPE) 切片，因其能更好地保存组织形态。使用OTSU图像分割算法分离前景组织与背景。在20倍放大率下，从前景区域中提取不重叠的224x224像素的patches。进行stain augmentation（颜色抖动）以增强模型的鲁棒性。

2.2 生存预测与损失函数

作者将生存预测问题与Cox-PH模型相结合。模型的输出层是一个Cox模块，其目标是最小化negative log-likelihood（负对数似然），也称为Cox loss：

\[L(\beta | X) = - \sum_{i:C_i=1} \left( f_\theta(X_i) - \log \sum_{j:Y_j \ge Y_i} e^{f_\theta(X_j)} \right)\]

其中，$f_\theta(X_i)$是由神经网络（参数为$\theta$）学习到的非线性风险函数，取代了传统Cox模型中的线性项$\beta X_i$。

2.3 特征提取

组织病理学数据 (a)：使用一个在ImageNet上预训练的ResNet-50 CNN作为特征提取器。每个输入的patch被编码为一个2048维的特征向量。
表达数据 (b)：使用一个三层的multi-layer perceptron (MLP) 架构来提取高维基因表达数据的特征。输入层大小为12,778（基因数量），经过一个4096维的隐藏层，最终输出一个2048维的特征向量。

2.4 多尺度数据融合策略

作者实现并比较了三种数据融合策略：

早期融合 (Early fusion) (图a)：也称为特征融合。首先，独立训练病理学模型和基因表达模型，并提取各自的2048维特征向量。然后，将这两个特征向量拼接（concatenating）成一个4096维的向量。最后，在这个融合后的特征上训练一个新的Cox模块（一个MLP）进行最终的生存预测。
晚期融合 (Late fusion) (图b)：也称为决策融合。首先，独立训练病理学模型和基因表达模型，并得到各自预测的风险评分。然后，将这两个风险评分作为新的特征，训练一个新的Cox回归模型进行最终的生存预测。
联合融合 (Joint fusion) (图c)：也称为中间层融合。将病理学模型和基因表达模型的特征提取部分连接到一个共同的全连接输出层。整个模型进行端到端的同步训练，使得Cox loss能够同时反向传播到两个特征提取子网络，从而在特征学习阶段就实现模态间的相互影响。

3. 实验分析

3.1 胶质瘤队列上的多模态数据融合与模型开发

该表展示了在成人和儿童胶质瘤队列的测试集上，五种模型（两种单模态，三种多模态）的Composite Scores (CS) 性能。CS是一个结合了CI和IBS的综合指标，值越高越好。

成人队列：三种多模态模型的CS（0.836, 0.822, 0.822）均优于两种单模态模型（0.805, 0.780）。其中，Early Fusion表现最佳。
儿童队列：多模态模型同样优于单模态模型。其中，Early Fusion表现最佳（0.919）。

在成人和儿童胶质瘤数据上，数据融合策略都取得了协同效应，其预测性能优于单独使用任一模态。在作者的实验中，Early Fusion是表现最好的策略。

该图展示了五种模型在成人和儿童测试集上对高/低风险患者的分层能力。

成人队列 (a-e,左)：所有五个模型都显示出对高/低风险组的显著区分（p < 0.0001）。
儿童队列 (a-e,右)：所有模型同样显示出良好的分层能力（p < 0.03），其中多模态融合模型的分层效果最好。

该图通过箱线图展示了多模态模型相比单模态模型在CS分布上的显著提升。这些结果表明，整合多模态数据可能发现了在单模态中未被揭示的额外信息。

3.2 在独立队列上的模型评估与迁移学习

在迁移学习中，多模态方法同样能提升预测生存概率的价值。

CPTAC验证（成人GBM独立队列）：将训练好的成人胶质瘤模型在独立的CPTAC队列上进行验证。结果显示，多模态模型（特别是Early Fusion）的CS和IBS表现均优于单模态模型。这表明多模态模型可能不易过拟合，具有更好的泛化能力。
迁移学习（儿童罕见肿瘤）：将训练好的儿童胶质瘤模型直接用于预测两种样本量更少的儿童脑肿瘤（室管膜瘤和髓母细胞瘤）。结果显示，多模态模型的性能同样优于单模态模型，尤其是在IBS指标上。

3.3 模型可解释性分析

作者通过反向传播计算每个基因对生存预测的贡献梯度，并将其映射到Reactome通路上。Joint Fusion模型（图b）正确地将与RAS和NTKR信号相关的通路识别为不良预后通路（正梯度），将促凋亡通路和RUNX3（已知的胶质瘤肿瘤抑制基因）通路识别为良好预后通路（负梯度）。然而，这些结果在RNA-only模型（图a）中并未出现。这表明，组织病理学图像的加入帮助模型选择了更有生物学意义的因果基因和通路。

模型的可解释性分析结果与已知的临床病理学知识相符。

定性分析 (a, b)：通过可视化梯度生成的saliency map（显著性图），作者发现模型关注的区域与病理学特征高度相关。例如，在不良预后样本中，模型关注肿瘤细胞区域；在良好预后样本中，joint fusion模型更关注淋巴细胞区域。
定量分析 (c)：通过对细胞类型组成的定量分析，作者发现，高风险样本中的肿瘤细胞比例显著更高，而低风险样本中的淋巴细胞比例显著更高。这与胶质瘤中淋巴细胞浸润与更好预后相关的发现一致。