可解释多模态深度学习癌症预后的预训练策略评估.

0. TL; DR

作者开发了一个可解释的多模态建模框架,该框架整合了DNA甲基化、基因表达和组织病理学数据,并系统地比较了三种预训练策略(crossmodal pretraining, contrastive learning, transfer learning)与标准流程的性能。

结果表明,选择合适的预训练策略对于获得高精度的预后模型至关重要,其重要性甚至超过了设计创新的模型架构。模型的可解释性分析揭示了其在做出预后预测时,考虑了具有生物学意义的因素,并进一步强调了肿瘤微环境在疾病进展中的全方位重要作用。

1. 背景介绍

癌症预后预测,即评估患者的最终疾病结局或死亡风险,对于制定有效的个性化治疗方案至关重要。尽管临床医生可以依赖疾病分期、分子标志物等信息,但这个过程往往是主观且复杂的。随着big data和高通量技术的发展,大量的生物医学信息(如whole-slide-imaging (WSI)、基因表达、DNA甲基化等)变得可用,这为利用machine learning (ML),特别是deep learning,进行自动化的精准预后预测提供了机遇。

近年来,多模态建模因其能够利用来自不同数据源的互补信息而备受关注。许多研究已经证明,整合WSI和基因组数据的多模态模型在癌症预后预测方面优于单模态模型。然而,现有方法仍面临一些挑战:

因此,本研究旨在填补这一空白。作者提出了一个整合了DNA甲基化、基因表达和组织病理学图像的可解释多模态框架,并系统地评估了不同预训练策略对模型性能的影响。

2. 方法介绍

作者的框架整合了三种模态的数据:DNA methylationDNAm)、gene expression(基因表达)和WSI。其核心在于对每种模态设计了专门的编码器,并系统地比较了不同的预训练策略。

2.1 数据预处理

Omics数据 (DNAm, Gene Expression)使用TCGABiolinks R package进行标准化预处理,基因表达数据进行FPKM归一化和对数变换。

WSI数据使用Macenko方法进行stain normalization(颜色标准化)。将WSI分割成不重叠的256x256的patches。使用在ImageNet上预训练的ResNet50 CNN将每个patch编码为一个嵌入向量。基于patches的空间邻接关系,构建一个whole slide graph (WSG),其中节点是patches,节点的属性是其嵌入向量。

2.2 单模态编码器设计

Omics编码器

作者设计了一种受capsule-style网络启发的稀疏连接神经网络。输入节点代表基因或CpG位点,后续层代表与它们相关的生物学通路或基因。通过这种方式,模型被注入了生物学先验知识,即基因和通路之间的层级关系,从而增强了可解释性。

WSI编码器

使用Graph Convolutional Networks (GCNs) 来处理WSG。编码器由多个SAGEConv图卷积层和SAGEPool节点池化层组成,通过自注意力机制学习上下文相关的节点(patch)嵌入。最后,通过一个JumpingKnowledge (JK) 池化层聚合整个图的信息,得到一个图级别的(即slide级别)的嵌入。

2.3 预训练策略比较

作者对单模态编码器比较了三种预训练策略:

自监督预训练 (Uni-Self)

Omics (图A) 使用variational autoencoders (VAEs) 对编码器进行无监督预训练,然后用预训练好的权重来初始化模型,并进行生存预测的微调。WSI直接使用随机初始化的权重,训练GCN模型进行生存预测。

跨模态预训练 (Uni-Cross)

Omics (图B) 在训练一个模态(如基因表达)进行生存预测的同时,增加一个辅助任务,即预测另一种互补模态(如DNAm)的信息。

WSI (图B) 首先使用Graph Contrastive Learning (GCL)(具体为Deep Graph Infomax)对GCN进行预训练,然后将其权重迁移到下游任务,该任务同时进行生存预测和跨模态(DNAm或基因表达)预测。

迁移学习 (Uni-Transfer)

首先在一个包含所有8种癌症亚型的数据集上,使用Uni-Cross策略训练一个泛癌种的单模态模型。然后,将这个预训练好的模型在每个特定的癌症亚型上进行微调。

2.4 多模态建模

将来自三种模态(DNAm, 基因表达, WSI)的、经过相应预训练策略训练好的编码器所提取的特征,通过一个gated attentionKrockener product-based的张量融合机制进行融合。

作者构建了两类多模态模型进行比较:

3. 实验分析

3.1 多模态预后预测性能

在8个癌症亚型中的7个,表现最好的多模态模型其性能优于表现最好的单模态模型,证明了整合多模态信息的价值。与标准的Multi-Self设置相比,采用Multi-CrossMulti-Transfer预训练策略的多模态模型,在除KIRC外的所有亚型中都取得了更好的性能。

state-of-the-artPORPOISE模型相比,作者的顶尖模型在除SKCM外的所有癌症类型上都取得了更高的C-index(平均提升11.54%)。与Cheerla & Gevaert的泛癌预训练模型相比,在8个亚型中的5个上取得了更好的性能。这些结果表明,采用更先进的预训练策略(如跨模态预训练和迁移学习)对于提升多模态预后模型的性能至关重要。

该图展示了在各个癌症亚型上,表现最好的多模态模型对高/低风险患者的Kaplan-Meier生存曲线。所有曲线都显示出显著的分层效果(log-rank检验的p-value都很低),证明了模型强大的风险分层能力。

3.2 模型可解释性分析

通过Integrated Gradients方法,作者从基因表达和DNAm编码器中识别出了对预后预测贡献最大的通路和基因。识别出的通路与已知的癌症进展机制高度相关,例如,BLCA中的平滑肌细胞增殖调控,BRCA中的乳腺发育等。识别出的通路同样具有生物学意义,例如,BLCA中的糖皮质激素受体通路,BRCA中的G2期通路等。

KIRC为例,作者验证了模型的预测能力超越了已知的BAP1PBRM1突变状态。部分似然比检验表明,在控制了这些突变状态后,模型预测的风险值仍然具有显著的额外预测价值。

作者可视化了WSI GCN模型认为重要性高的区域(即pooling后保留的patches)。通过与已发表的tumor infiltrating lymphocytes (TILs)(肿瘤浸润淋巴细胞)图谱进行比较,作者发现模型关注的区域与TILs的分布高度一致。在SKCM等癌症类型中,TIL的存在与否与模型的风险分层之间存在显著的交互作用。

这些可解释性分析的结果表明,模型不仅性能优越,而且其决策过程与已知的生物学和病理学知识相符,证明了模型能够学习到有意义的生物标志物。