可解释多模态深度学习癌症预后的预训练策略评估.

paper：Assessment of emerging pretraining strategies in interpretable multimodal deep learning for cancer prognostication

0. TL; DR

作者开发了一个可解释的多模态建模框架，该框架整合了DNA甲基化、基因表达和组织病理学数据，并系统地比较了三种预训练策略（crossmodal pretraining, contrastive learning, transfer learning）与标准流程的性能。

结果表明，选择合适的预训练策略对于获得高精度的预后模型至关重要，其重要性甚至超过了设计创新的模型架构。模型的可解释性分析揭示了其在做出预后预测时，考虑了具有生物学意义的因素，并进一步强调了肿瘤微环境在疾病进展中的全方位重要作用。

1. 背景介绍

癌症预后预测，即评估患者的最终疾病结局或死亡风险，对于制定有效的个性化治疗方案至关重要。尽管临床医生可以依赖疾病分期、分子标志物等信息，但这个过程往往是主观且复杂的。随着big data和高通量技术的发展，大量的生物医学信息（如whole-slide-imaging (WSI)、基因表达、DNA甲基化等）变得可用，这为利用machine learning (ML)，特别是deep learning，进行自动化的精准预后预测提供了机遇。

近年来，多模态建模因其能够利用来自不同数据源的互补信息而备受关注。许多研究已经证明，整合WSI和基因组数据的多模态模型在癌症预后预测方面优于单模态模型。然而，现有方法仍面临一些挑战：

生物学先验的利用不足：如何设计模型架构以更好地反映和利用数据背后复杂的生物学关系（如基因到通路的层次结构）是一个难题。
新兴预训练策略的评估缺失：Pretraining是deep learning中的一种重要技术，它可以通过在大型、通用或相关的任务上预先训练模型来提升其在特定下游任务上的性能。尽管crossmodal pretraining（跨模态预训练）、contrastive learning（对比学习）和transfer learning（迁移学习）等新兴策略在其他领域显示出巨大潜力，但它们在多模态癌症预后预测领域的综合性评估仍然是一个空白。

因此，本研究旨在填补这一空白。作者提出了一个整合了DNA甲基化、基因表达和组织病理学图像的可解释多模态框架，并系统地评估了不同预训练策略对模型性能的影响。

2. 方法介绍

作者的框架整合了三种模态的数据：DNA methylation（DNAm）、gene expression（基因表达）和WSI。其核心在于对每种模态设计了专门的编码器，并系统地比较了不同的预训练策略。

2.1 数据预处理

Omics数据 (DNAm, Gene Expression)使用TCGABiolinks R package进行标准化预处理，基因表达数据进行FPKM归一化和对数变换。

WSI数据使用Macenko方法进行stain normalization（颜色标准化）。将WSI分割成不重叠的256x256的patches。使用在ImageNet上预训练的ResNet50 CNN将每个patch编码为一个嵌入向量。基于patches的空间邻接关系，构建一个whole slide graph (WSG)，其中节点是patches，节点的属性是其嵌入向量。

2.2 单模态编码器设计

Omics编码器

作者设计了一种受capsule-style网络启发的稀疏连接神经网络。输入节点代表基因或CpG位点，后续层代表与它们相关的生物学通路或基因。通过这种方式，模型被注入了生物学先验知识，即基因和通路之间的层级关系，从而增强了可解释性。

WSI编码器

使用Graph Convolutional Networks (GCNs) 来处理WSG。编码器由多个SAGEConv图卷积层和SAGEPool节点池化层组成，通过自注意力机制学习上下文相关的节点（patch）嵌入。最后，通过一个JumpingKnowledge (JK) 池化层聚合整个图的信息，得到一个图级别的（即slide级别）的嵌入。

2.3 预训练策略比较

作者对单模态编码器比较了三种预训练策略：

自监督预训练 (Uni-Self)

Omics (图A) 使用variational autoencoders (VAEs) 对编码器进行无监督预训练，然后用预训练好的权重来初始化模型，并进行生存预测的微调。WSI直接使用随机初始化的权重，训练GCN模型进行生存预测。

跨模态预训练 (Uni-Cross)

Omics (图B) 在训练一个模态（如基因表达）进行生存预测的同时，增加一个辅助任务，即预测另一种互补模态（如DNAm）的信息。

WSI (图B) 首先使用Graph Contrastive Learning (GCL)（具体为Deep Graph Infomax）对GCN进行预训练，然后将其权重迁移到下游任务，该任务同时进行生存预测和跨模态（DNAm或基因表达）预测。

迁移学习 (Uni-Transfer)

首先在一个包含所有8种癌症亚型的数据集上，使用Uni-Cross策略训练一个泛癌种的单模态模型。然后，将这个预训练好的模型在每个特定的癌症亚型上进行微调。

2.4 多模态建模

将来自三种模态（DNAm, 基因表达, WSI）的、经过相应预训练策略训练好的编码器所提取的特征，通过一个gated attention和Krockener product-based的张量融合机制进行融合。

作者构建了两类多模态模型进行比较：

Multi-Self：使用Uni-Self策略预训练的编码器权重进行初始化。
Multi-Cross：使用Uni-Cross策略预训练的编码器权重进行初始化。
Multi-Transfer：使用Uni-Transfer策略预训练的编码器权重进行初始化，并在每个子类型上进行微调。

3. 实验分析

3.1 多模态预后预测性能

在8个癌症亚型中的7个，表现最好的多模态模型其性能优于表现最好的单模态模型，证明了整合多模态信息的价值。与标准的Multi-Self设置相比，采用Multi-Cross或Multi-Transfer预训练策略的多模态模型，在除KIRC外的所有亚型中都取得了更好的性能。

与state-of-the-art的PORPOISE模型相比，作者的顶尖模型在除SKCM外的所有癌症类型上都取得了更高的C-index（平均提升11.54%）。与Cheerla & Gevaert的泛癌预训练模型相比，在8个亚型中的5个上取得了更好的性能。这些结果表明，采用更先进的预训练策略（如跨模态预训练和迁移学习）对于提升多模态预后模型的性能至关重要。

该图展示了在各个癌症亚型上，表现最好的多模态模型对高/低风险患者的Kaplan-Meier生存曲线。所有曲线都显示出显著的分层效果（log-rank检验的p-value都很低），证明了模型强大的风险分层能力。

3.2 模型可解释性分析

通过Integrated Gradients方法，作者从基因表达和DNAm编码器中识别出了对预后预测贡献最大的通路和基因。识别出的通路与已知的癌症进展机制高度相关，例如，BLCA中的平滑肌细胞增殖调控，BRCA中的乳腺发育等。识别出的通路同样具有生物学意义，例如，BLCA中的糖皮质激素受体通路，BRCA中的G2期通路等。

以KIRC为例，作者验证了模型的预测能力超越了已知的BAP1和PBRM1突变状态。部分似然比检验表明，在控制了这些突变状态后，模型预测的风险值仍然具有显著的额外预测价值。

作者可视化了WSI GCN模型认为重要性高的区域（即pooling后保留的patches）。通过与已发表的tumor infiltrating lymphocytes (TILs)（肿瘤浸润淋巴细胞）图谱进行比较，作者发现模型关注的区域与TILs的分布高度一致。在SKCM等癌症类型中，TIL的存在与否与模型的风险分层之间存在显著的交互作用。

这些可解释性分析的结果表明，模型不仅性能优越，而且其决策过程与已知的生物学和病理学知识相符，证明了模型能够学习到有意义的生物标志物。