多模态基础模型增强泛癌预后预测的泛化性与数据效率.

0. TL; DR

本文提出了MICE (Multimodal data Integration via Collaborative Experts),一个旨在有效整合pathology images(病理图像)、clinical reports(临床报告)和genomics data(基因组学数据)以实现精准泛癌种预后预测的多模态基础模型。

MICE采用了功能多样化的多个专家来全面捕捉跨癌种(cross-cancer)的共性知识和特定癌种(cancer-specific)的独有见解。利用来自30个癌种、11,799名患者的数据,通过耦合对比和监督学习,增强了MICE的泛化能力。

在性能上,MICE显著优于单模态和state-of-the-art的多专家多模态模型,在内部队列上的C-index提升了3.8%至11.2%,在独立队列上提升了5.8%至8.8%。在数据效率上,MICE表现出惊人的能力,即使仅用50%的样本进行微调,其性能也能与在完整数据集上训练的竞争模型相媲美。

1. 背景介绍

在精准肿瘤学中,准确的预后预测对于指导临床决策至关重要。其主要挑战在于肿瘤异质性的内在生物学复杂性,这种复杂性在分子和组织学层面都有所体现。为了克服这一挑战,需要对肿瘤微环境(TME)进行全面表征。

AI 驱动的多模态学习在全面表征TME方面具有变革性的潜力。尽管近期的许多研究已经提出了先进的多模态AI模型,通过整合组织病理学图像和基因组学数据来提高预后准确性,但这些模型存在明显的局限性:

为了开发一个真正的MFM,需要一个大规模的多模态数据集进行预训练。尽管单个癌种的多模态数据稀缺,但不同癌症在病理图像、基因组学和临床报告等模态之间共享着潜在的相关模式。这表明,跨癌种聚合多模态数据是构建一个统一的、能够进行精确和可泛化预后预测的MFM的可行策略。

然而,有效利用泛癌种数据需要一个能够同时捕捉共享和癌种特异性生物学模式的先进架构。传统的multi-head模型或Mixture-of-Experts (MoE) 模型要么只关注癌种特异性模式,要么只关注跨癌种的共性,都无法形成精确泛癌种预后所必需的整合表示。

因此,作者提出了MICE,这是首个明确为有效整合异构whole slide images (WSIs)、临床报告和基因组学数据以实现准确泛癌种预后预测而设计的MFM

2. MICE 方法

MICE的开发流程如图所示,包括数据收集、单模态特征提取、多模态数据整合和模型预训练。

2.1 单模态特征提取

作者采用了特定于模态的方法来从每种模态中提取特征。

2.2 协同多专家模块 (Collaborative multi-expert module)

为了解决现有模型在整合多模态数据和泛化能力方面的不足,作者提出了一个collaborative multi-expert module。该模块的核心思想是,通过将多个专家模块组织成三个功能不同的类别,来全面地表征癌症间的相关性。

  1. 共识专家 (Consensual expert):用于识别所有癌症共享的泛癌种生物学知识。
  2. 专业化专家组 (Specialized experts):为每个独立的癌症类型编码独特的特征,类似于multi-head模型中的多个分类器。
  3. 重叠专家组 (Overlapping experts):通过一个router模块,动态地获取部分癌症之间共享的信息,类似于MoE模型。

在训练时,对于一个给定的样本,只有共识专家、对应癌症类型的专业化专家以及被路由器选中的重叠专家会被用来整合多模态输入。这种机制确保了不同的专家模块学习到不同的知识,从而全面地捕捉到泛癌种数据中的共识性、重叠性和专业化知识。

2.3 耦合的预训练策略

为了增强模型的泛化能力,作者采用了结合自监督和监督学习的双重学习策略来预训练MICE

自监督学习使用contrastive learning(对比学习)。其目标是:拉近同一患者不同模态特征之间的距离,同时推远不同患者特征之间的距离。这有助于从每个模-态中提取具有代表性的特征。其损失函数为:

\[L_{cl} = -\log \frac{\sum_{M^+} d(M, M^+)}{\sum_{M^+} d(M, M^+) + \sum_{M^-} d(M, M^-)}\]

其中,$M^+$和$M^-$分别表示正样本和负样本的特征,$d(\cdot, \cdot)$计算两个输入之间的相似度。

监督学习使用预后随访数据来监督多模态数据整合过程,引导MICE更好地学习癌症间的相关性。作者使用了一个考虑了删失(censorship)的负对数似然(NLL)损失函数:

\[L_{surv} = -c \log(f_{sur}(H, k)) - (1-c) \log(f_{sur}(H, k-1)) - (1-c) \log(h_k)\]

其中,$H$是预测的风险向量,$k$是真实事件发生的时间区间,$c$是删失指示符。

3. 实验分析

3.1 研究队列

模型开发使用了来自TCGA的10,191名患者(30个癌种)的多模态数据。其中,18个样本量大于200的队列(共8,932人)用于预训练和内部交叉验证;12个样本量小于200的队列(共1,259人)仅用于预训练。

独立验证使用了三个外部独立队列(HANCOCK, YNGC, NFCRC),共1,608名患者,涵盖头颈癌、胃癌和结直肠癌。

3.2 MICE在内部数据上展现出强大的预后准确性

这些结果证明了MICE的协同多专家模块和双重预训练策略的有效性,使其成为多模态泛癌种预后预测的新基准。

3.3 MICE在独立队列中展示出卓越的泛化能力

这些结果共同证实了MICE的强大泛化能力,它能从多模态数据中识别出可泛化的生存模式,并有效地跨越不同的癌种、医疗机构和不完整的模态输入。

3.4 MICE在真实世界转化中表现出惊人的数据效率

作者通过减少用于微调的样本量(50%或75%)来评估模型的数据效率。结果显示,MICE在数据稀缺的情况下,其性能下降幅度远小于其他模型。最引人注目的是,仅用50%的数据进行训练的MICE,其性能与在100%数据上训练的单模态和多模态竞争模型相当。

3.5 消融研究与可解释性分析