多模态基础模型增强泛癌预后预测的泛化性与数据效率.

paper：A Multimodal Foundation Model to Enhance Generalizability and Data Efficiency for Pan-cancer Prognosis Prediction

0. TL; DR

本文提出了MICE (Multimodal data Integration via Collaborative Experts)，一个旨在有效整合pathology images（病理图像）、clinical reports（临床报告）和genomics data（基因组学数据）以实现精准泛癌种预后预测的多模态基础模型。

MICE采用了功能多样化的多个专家来全面捕捉跨癌种（cross-cancer）的共性知识和特定癌种（cancer-specific）的独有见解。利用来自30个癌种、11,799名患者的数据，通过耦合对比和监督学习，增强了MICE的泛化能力。

在性能上，MICE显著优于单模态和state-of-the-art的多专家多模态模型，在内部队列上的C-index提升了3.8%至11.2%，在独立队列上提升了5.8%至8.8%。在数据效率上，MICE表现出惊人的能力，即使仅用50%的样本进行微调，其性能也能与在完整数据集上训练的竞争模型相媲美。

1. 背景介绍

在精准肿瘤学中，准确的预后预测对于指导临床决策至关重要。其主要挑战在于肿瘤异质性的内在生物学复杂性，这种复杂性在分子和组织学层面都有所体现。为了克服这一挑战，需要对肿瘤微环境（TME）进行全面表征。

由AI 驱动的多模态学习在全面表征TME方面具有变革性的潜力。尽管近期的许多研究已经提出了先进的多模态AI模型，通过整合组织病理学图像和基因组学数据来提高预后准确性，但这些模型存在明显的局限性：

泛化能力受限：它们通常在特定癌种的多模态数据集上训练，这内在地限制了样本量，从而损害了模型的泛化能力。
现有MFMs的不足：现有的多模态基础模型主要利用对比学习来对齐来自同一患者的不同模态的特征。然而，由于模态间的巨大异质性，这些MFMs往往只能捕捉到有限的共同知识，而忽略了宝贵的模态特有信息。

为了开发一个真正的MFM，需要一个大规模的多模态数据集进行预训练。尽管单个癌种的多模态数据稀缺，但不同癌症在病理图像、基因组学和临床报告等模态之间共享着潜在的相关模式。这表明，跨癌种聚合多模态数据是构建一个统一的、能够进行精确和可泛化预后预测的MFM的可行策略。

然而，有效利用泛癌种数据需要一个能够同时捕捉共享和癌种特异性生物学模式的先进架构。传统的multi-head模型或Mixture-of-Experts (MoE) 模型要么只关注癌种特异性模式，要么只关注跨癌种的共性，都无法形成精确泛癌种预后所必需的整合表示。

因此，作者提出了MICE，这是首个明确为有效整合异构whole slide images (WSIs)、临床报告和基因组学数据以实现准确泛癌种预后预测而设计的MFM。

2. MICE 方法

MICE的开发流程如图所示，包括数据收集、单模态特征提取、多模态数据整合和模型预训练。

2.1 单模态特征提取

作者采用了特定于模态的方法来从每种模态中提取特征。

病理图像 (Pathology images)：使用Otsu分割方法从WSI中提取前景区域。将前景区域划分为不重叠的512x512的patches。使用病理学基础模型UNI为每个patch推导出一个1024维的embedding。使用MambaMIL方法将一个WSI的所有patch embeddings聚合成一个患者级的表示。
基因组学数据 (Genomics data)：对基因表达水平进行z-score归一化。使用Self-Normalizing Networks (SNNs) 进行表示学习，以建模基因间的相关性。
临床报告 (Clinical reports)：使用BioBERT来捕捉临床报告中丰富的语义信息。
癌症嵌入 (Cancer embeddings)：为MICE提供一个可学习的cancer embedding，指示患者的癌症类型。这使得多模态数据整合能够针对每种癌症类型进行自适应调整。

2.2 协同多专家模块 (Collaborative multi-expert module)

为了解决现有模型在整合多模态数据和泛化能力方面的不足，作者提出了一个collaborative multi-expert module。该模块的核心思想是，通过将多个专家模块组织成三个功能不同的类别，来全面地表征癌症间的相关性。

共识专家 (Consensual expert)：用于识别所有癌症共享的泛癌种生物学知识。
专业化专家组 (Specialized experts)：为每个独立的癌症类型编码独特的特征，类似于multi-head模型中的多个分类器。
重叠专家组 (Overlapping experts)：通过一个router模块，动态地获取部分癌症之间共享的信息，类似于MoE模型。

在训练时，对于一个给定的样本，只有共识专家、对应癌症类型的专业化专家以及被路由器选中的重叠专家会被用来整合多模态输入。这种机制确保了不同的专家模块学习到不同的知识，从而全面地捕捉到泛癌种数据中的共识性、重叠性和专业化知识。

2.3 耦合的预训练策略

为了增强模型的泛化能力，作者采用了结合自监督和监督学习的双重学习策略来预训练MICE。

自监督学习使用contrastive learning（对比学习）。其目标是：拉近同一患者不同模态特征之间的距离，同时推远不同患者特征之间的距离。这有助于从每个模-态中提取具有代表性的特征。其损失函数为：

\[L_{cl} = -\log \frac{\sum_{M^+} d(M, M^+)}{\sum_{M^+} d(M, M^+) + \sum_{M^-} d(M, M^-)}\]

其中，$M^+$和$M^-$分别表示正样本和负样本的特征，$d(\cdot, \cdot)$计算两个输入之间的相似度。

监督学习使用预后随访数据来监督多模态数据整合过程，引导MICE更好地学习癌症间的相关性。作者使用了一个考虑了删失（censorship）的负对数似然（NLL）损失函数：

\[L_{surv} = -c \log(f_{sur}(H, k)) - (1-c) \log(f_{sur}(H, k-1)) - (1-c) \log(h_k)\]

其中，$H$是预测的风险向量，$k$是真实事件发生的时间区间，$c$是删失指示符。

3. 实验分析

3.1 研究队列

模型开发使用了来自TCGA的10,191名患者（30个癌种）的多模态数据。其中，18个样本量大于200的队列（共8,932人）用于预训练和内部交叉验证；12个样本量小于200的队列（共1,259人）仅用于预训练。

独立验证使用了三个外部独立队列（HANCOCK, YNGC, NFCRC），共1,608名患者，涵盖头颈癌、胃癌和结直肠癌。

3.2 MICE在内部数据上展现出强大的预后准确性

总体性能 (a)：MICE在18个内部TCGA队列中取得了0.710的平均C-index。
与基线比较 (b-d)：与单模态模型和包括early fusion, late fusion, multi-head, 和MoE在内的多模态模型相比，MICE的平均C-index提升了3.8%至11.2%（p < 0.01）。
分癌种性能 (b-d)：在18个队列中，MICE在11个队列中取得了最高的预后准确性（其中9个具有统计学显著差异），并在其余7个队列中取得了第二好的性能（与第一名无统计学差异）。

这些结果证明了MICE的协同多专家模块和双重预训练策略的有效性，使其成为多模态泛癌种预后预测的新基准。

3.3 MICE在独立队列中展示出卓越的泛化能力

总体性能 (a)：在三个独立队列的10个不同预后预测任务中，MICE的平均C-index达到了0.699。
与基线比较 (b)：与竞争模型（包括另外两个state-of-the-art的双峰模型MCAT和Surv-Path）相比，MICE的绝对C-index提升了5.8%至8.8%（p < 0.001），并在所有10个任务中均排名第一。
临床效用 (c)：Kaplan-Meier分析显示，被MICE分层为高风险组的患者，其生存期显著短于低风险组（log-rank p < 0.001）。

这些结果共同证实了MICE的强大泛化能力，它能从多模态数据中识别出可泛化的生存模式，并有效地跨越不同的癌种、医疗机构和不完整的模态输入。

3.4 MICE在真实世界转化中表现出惊人的数据效率

作者通过减少用于微调的样本量（50%或75%）来评估模型的数据效率。结果显示，MICE在数据稀缺的情况下，其性能下降幅度远小于其他模型。最引人注目的是，仅用50%的数据进行训练的MICE，其性能与在100%数据上训练的单模态和多模态竞争模型相当。

3.5 消融研究与可解释性分析

对Figure a（模态组合消融研究）的分析：在TCGA-BRCA队列上，随着模态数量的增加，预后准确性持续提升。三模态（R+P+G）整合取得了最高的C-index。包含基因组学数据（G）的模型始终优于其他配置，突显了基因组学数据在BRCA预后预测中的至关重要性。
对Figure b（模态贡献分析）的分析：不同模态在不同癌种中的贡献度各不相同。例如，在肾癌（KIRC, KIRP）和肺鳞癌（LUSC）中，病理图像的贡献占主导；而在胶质母细胞瘤/胶质瘤（GBMLGG）和乳腺癌（BRCA）中，基因组学数据更具预测价值。这强调了针对不同癌种特性整合异构多模态数据的必要性。
对Figure c-e（特征级显著性图）的分析：
- 病理图像 (c)：MICE关注的显著区域集中在肿瘤核心和侵袭边缘。预后差的患者表现出更具侵袭性的生长模式和更高比例的肿瘤坏死。
- 基因组学 (d)：通过对最重要的基因进行富集分析，发现了与发育过程、神经元信号和昼夜节律相关的通路，这些都与乳腺癌预后密切相关。
- 临床报告 (e)：词云图显示，如immunotherapy（免疫治疗）、hysterectomy（子宫切除术）等治疗干预措施，以及bronchopneumonia（支气管肺炎）、atherosclerosis（动脉粥样硬化）等并发症，都是影响预后的关键因素。