放射学、病理学和基因组学的多模态整合用于预测非小细胞肺癌患者对PD-(L)1阻断疗法的反应.

paper：Multimodal integration of radiology, pathology and genomics for prediction of response to PD-(L)1 blockade in patients with non-small cell lung cancer

0. TL; DR

本研究提出了一个基于机器学习的多模态整合模型，旨在通过整合患者在临床诊疗过程中常规获取的多种数据，来更准确地预测对PD-(L)1阻断疗法的反应。

在一个包含247名接受免疫治疗的晚期NSCLC患者队列中，成功整合了computed tomography (CT) 扫描图像、数字化的programmed death ligand-1 (PD-L1) immunohistochemistry (IHC)（免疫组化）切片以及基因组学特征。
提出了一个名为DyAM（Dynamic Attention-based Multiple-instance learning with masking）的动态注意力多实例学习模型。该模型能够自适应地加权不同模态的贡献，并能处理缺失数据。
实验结果显示，模型的预测性能（AUC = 0.80）显著优于任何单模态指标，包括TMB（AUC = 0.61）和PD-L1 IHC评分（AUC = 0.73）。

1. 背景介绍

靶向programmed cell death protein 1 (PD-1) 及其配体PD-L1的免疫疗法，已迅速改变了NSCLC的治疗格局。然而，这些疗法仅对一部分患者有效，因此迫切需要开发能够预测疗效的生物标志物。

目前，FDA批准的用于NSCLC免疫治疗的预测性生物标志物只有两个：通过IHC评估的肿瘤PD-L1表达和TMB。然而，它们的预测能力都相当有限。与此同时，多项独立分析指出，一些独立的基线临床特征（如抗生素使用史）、个体基因组改变（如EGFR突变）以及肿瘤内细胞毒性T细胞群的密度等，都可能是潜在的预测因素。

这表明，单一的生物标志物可能不足以捕捉复杂的肿瘤免疫微环境。与以往的方法不同，作者旨在开发一个能够整合和综合在临床护理过程中常规获取的多模态数据的模型。这些数据，如用于分期的CT扫描和用于诊断的PD-L1 IHC切片，其原始数据均可通过机器学习和图像分析工具进行自动化特征提取。

因此，基于机器学习的多模态整合为推进PD-(L)1阻断疗法的精准肿瘤学提供了机会。然而，与集成的多模态模型相比，单模态的组织学、放射学、基因组学和临床特征的相对预测能力尚不明确。本研究旨在通过一个精心策划的多模态队列，系统性地评估各种单模态特征的预测能力，并开发一个集成的多模态模型，以期实现更准确的免疫治疗反应预测。

2. DyAM 方法

作者提出了一个名为DyAM (Dynamic Attention-based Multiple-instance learning with masking)的模型，用于整合多模态数据。DyAM的核心思想是，它将不同模态的特征视为一个bag中的异构实例，并为每个模态学习一个注意力权重，从而实现自适应的加权融合。

2.1 特征提取

在整合之前，作者首先从每个模态中提取特征。

CT Radiomics Features：由三名胸部放射科医生手动分割CT扫描中的病灶（肺实质、胸膜和淋巴结）。使用pyradiomics Python包提取1,688个radiomics特征。通过对分割区域进行微小扰动并评估特征的稳定性，筛选出鲁棒的特征用于后续建模。
PD-L1 IHC Texture Features：使用一个在HALO AI软件中训练的deep-learning classifier来自动分割PD-L1 IHC切片中的肿瘤区域。对分割出的肿瘤区域进行颜色解卷积，分离出PD-L1的棕色染色和苏木精的蓝色复染。使用GLCMs（灰度共生矩阵）来量化PD-L1表达的纹理模式，并提取均值、标准差等统计量作为IHC texture特征。
Genomic Features：使用MSK-IMPACT平台对肿瘤组织进行靶向二代测序，获得体细胞突变、拷贝数变异和基因融合等信息。重点关注与NSCLC和免疫治疗反应相关的基因改变，如EGFR, STK11等，以及TMB。

2.2 多模态动态注意力与掩蔽 (Multimodal Dynamic Attention with Masking, DyAM)

DyAM模型是标准attention-based multiple-instance learning (MIL) 的一个扩展，专门用于处理异构的多模态输入。

对于每个输入模态（如一种CT病灶类型、IHC纹理特征、基因组特征），DyAM都为其分配一套独立的可训练参数，包括：

风险参数 (risk parameters)：用于将该模态的输入特征映射到一个partial risk score（部分风险评分）$r_i$。
注意力参数 (attention parameters)：用于将输入特征映射到一个注意力分数$a_i$。

注意力分数$a_i$经过一个注意力门控进行归一化，得到每个模态的最终权重$\alpha_i$。最终的总体风险评分$o$是所有模态的部分风险评分的加权和。

\[o = \sum_i \alpha_i r_i\]

DyAM的一个实用特性是，它能自然地处理缺失数据。如果一个患者缺少某个模态的数据（例如，CT上没有可分割的病灶，或PD-L1表达为阴性），该模态的注意力权重就会被设置为零，从而不参与最终风险评分的计算。整个模型通过二元交叉熵损失函数进行端到端训练，所有参数（风险参数和注意力参数）被协同优化。

3. 实验分析

3.1 队列与实验设计

研究包含三个正交的队列：

Multimodal cohort (n=247)：拥有所有模态数据的核心队列，用于训练和评估多模态模型。
Radiology cohort (n=50)：用于验证放射学单模态模型的外部队列。
Pathology cohort (n=52)：用于验证病理学单模态模型的外部队列。

首先，评估每个单模态（放射学、病理学、基因组学）的预测能力。然后，使用DyAM模型对不同模态的组合进行整合，并评估多模态模型的性能。所有评估均采用十折交叉验证。

3.2 单模态特征的预测能力

1. CT特征仅能温和地分离响应者

通过对原始分割进行超像素扰动，筛选出的radiomics特征在PCA空间中按病灶类型（肺实质、胸膜、淋巴结）聚类，但在响应者（PR/CR）和非响应者（SD/PD）之间没有明显分离。

基于不同病灶部位特征训练的Logistic Regression (LR) 模型显示，肺实质病灶（PC）和淋巴结病灶（LN）的预测性能中等（AUC分别为0.64和0.63），而胸膜病灶（PL）的特征几乎没有预测能力。将所有病灶的预测结果进行平均（LR Rad-average）或使用MIL模型进行整合，其总体AUC约为0.65和0.61。在放射学验证队列上的结果与此一致。仅凭CT衍生的特征对免疫治疗反应的区分能力有限，且主要由肺实质病灶的纹理特征驱动。

2. PD-L1纹理特征近似于病理学家的评估

作者提取了多种IHC texture特征，其中GLCM自相关的偏度（skewness）与病理学家评估的PD-L1 TPS（肿瘤比例分数）和PFS（无进展生存期）都相关。这些自动提取的纹理特征与病理学家评估的PD-L1 TPS在分布上显著相关，表明自动化特征提取可以近似专家的评估。

使用IHC-A（基于自相关矩阵的18个特征）或IHC-G（全部150个GLCM特征）训练的LR模型，其AUC约为0.62-0.63，低于病理学家评估的PD-L1 TPS（AUC=0.73）。在病理学验证队列上的结果与此一致。自动提取的IHC纹理特征具有一定的预测能力，但仍不如经验丰富的病理学家直接评估的TPS分数。

3. 来自临床测序数据的基因组预测因子

多变量Cox分析显示，EGFR突变、STK11突变和TMB是显著的预后因素。

仅使用TMB进行预测的AUC为0.61。仅使用常见的NSCLC基因组改变（不含TMB）进行预测的AUC为0.61。将两者结合（LR gen-combined）或取平均（LR gen-average）后，AUC提升至0.65。基因组特征具有一定的预测价值，但单独使用时能力有限。

3.3 基于DyAM的多模态整合与预测

使用DyAM整合所有三种模态（放射学、病理学和基因组学）后，Kaplan-Meier生存分析显示，模型能够显著地区分响应者和非响应者，其分离效果优于标准的临床生物标志物TMB和PD-L1 TPS。

Figure c图系统比较了各种单模态和多模态组合的AUC性能。总体趋势是，增加互补的特征集可以提升性能。例如，整合了所有放射学病灶类型的DyAM模型（DyAM rad），其AUC（0.70）优于任何单一病灶类型的模型。双模态组合（如放射学+基因组学）的性能优于单模态。其中，放射学和基因组学的组合表现最佳（AUC=0.76）。

当使用DyAM整合了所有三种模态的数据以及病理学家的PD-L1 TPS分数后，模型达到了最高的准确性，AUC为0.80 (95% CI 0.74–0.86)。这显著优于简单的LR分数平均方法（AUC=0.72）。通过DyAM进行的多模态整合，其预测能力显著超越了任何单模态特征或它们的线性组合。

3.4 DyAM多模态分析

多变量Cox回归分析显示，在校正了dNLR、白蛋白、脑转移等多个临床混杂因素后，DyAM的风险评分仍然是一个极其显著的独立预测因子（HR=13.65, P<0.005）。

将患者按DyAM风险评分分为四分位数后，最低风险组在4个月时的进展率为21%，而最高风险组则高达79%。这表明模型能够在治疗早期就有效地分离出不同风险的患者群体。

通过“高山图”（Alpine plots）分析了改变每个模态的注意力权重对模型整体性能的影响。结果显示，移除肺实质结节的CT纹理特征或基因组改变特征，对模型的AUC和早期患者分离能力影响最大。这表明放射组学和基因组学是早期分层的关键驱动因素，而DyAM的非线性加权机制对于最大化模型的预测能力至关重要。