通过多模态深度学习进行泛癌集成病理-基因组分析.

paper：Pan-cancer integrative histology-genomic analysis via multimodal deep learning

0. TL; DR

本研究提出了PORPOISE (Pathology-Omics Research Platform for Integrative Survival Estimation)，一个基于多模态深度学习的泛癌种分析框架。该框架能够联合审查病理学全切片图像(WSIs)和分子谱数据，用于癌症预后预测。

作者提出了一种弱监督的多模态深度学习算法，能够有效地融合这两种异构模态来预测结局，并发现与有利和不利结局相关的预后特征。通过结合基于注意力和基于归因的可解释性方法，该模型不仅能预测风险，还能揭示驱动预后的形态学和分子相关因素。

作者开发了一个名为PORPOISE的交互式、开放获取的在线平台。该平台允许研究人员在14种癌症类型、数千名患者中探索模型发现的形态学和分子预后标志物，从而推动新的生物标志物发现和特征评估。

作者在来自14个癌症类型的5,720个患者样本上训练和验证了该模型。结果表明，多模态数据融合显著改善了大多数癌症类型的预后模型性能。该研究为整合组织学和基因组学数据进行泛癌种预后分析提供了强有力的工具和宝贵的资源。

1. 背景介绍

癌症的定义包含其在组织病理学、基因组学和转录组学等多个层面的异质性，这种异质性导致了治疗反应和患者结局的多样性。

组织病理学：临床实践中，病理学家通过评估肿瘤侵袭、坏死、有丝分裂等形态学特征来进行癌症的分级和分期（如TNM分期系统），以指导治疗决策。然而，这种主观评估存在观察者间和观察者内的差异，且同分期/分级的患者结局仍有显著差异。
计算病理学：Deep learning的进步使得利用WSI进行自动化的癌症诊断和量化分析成为可能。通过使用生存时间等结局标签作为监督信号，deep learning方法有潜力发现新的、客观的预后形态学标志物。
分子生物学：随着下一代测序技术的发展，分子生物标志物（如EGFR突变、IDH1突变）在癌症预后和治疗决策中的地位日益重要。

然而，癌症预后本质上是一个多模态问题。将组织病理学评估与分子生物标志物结合已成为某些癌症（如脑肿瘤）的临床标准。利用deep learning对这两种数据源进行多模态融合，不仅能提高患者风险分层的精确度，还有助于发现和验证新的、组合性的生物标志物。

尽管已有研究尝试预测分子变异或进行基因型-表型关联分析，但一个能够整合WSI和多维分子谱数据，并提供可解释的形态学和分子预后因素的泛癌种框架仍然缺失。本研究旨在填补这一空白。

2. 方法介绍

作者提出了一个multimodal fusion (MMF) 深度学习算法，该算法能够整合H&E WSIs和分子谱特征（突变状态、拷贝数变异、RNA测序表达）来预测癌症死亡的相对风险，并解释其预测依据。

2.1 多模态融合算法 (Multimodal Fusion Algorithm)

该算法由三个神经网络模块组成：

AMIL (Attention-based Multiple-Instance Learning)

AMIL用于处理WSI。WSI被视为一个由多个patch实例组成的“bag”（包）。一个ResNet50编码器将每个patch转换为一个1024维的特征向量。一个attention module学习为每个patch分配一个注意力分数$a_m$，代表其对患者预后预测的相对重要性。通过attention-pooling将所有patch的特征加权聚合，得到一个患者级的WSI表示$h_{WSI}$。

\[a_m = \frac{\exp\left(W_a \left( \tanh(V_a h_m^u) \odot \text{sigm}(U_a h_m^u) \right)\right)}{\sum_{m=1}^M \exp\left(W_a \left( \tanh(V_a h_m^u) \odot \text{sigm}(U_a h_m^u) \right)\right)} \\ h_{patient} = \sum_{m=1}^M a_m h_m\]

SNN (Self-Normalizing Network)

SNN用于处理分子数据特征。SNN特别适合处理高维、小样本（HDLSS）的基因组学数据，因为它通过SeLU激活函数和Alpha Dropout来维持网络各层输出的自归一化特性，从而有效防止过拟合。SNN的最后全连接层输出一个患者级的分子表示$h_{molecular}$。

多模态融合层

作者使用Kronecker积来计算$h_{WSI}$和$h_{molecular}$的联合表示。这能捕捉到两种模态特征之间的所有成对交互。

\[h_{fusion} = \begin{bmatrix} h_{WSI} \\ 1 \end{bmatrix} \otimes \begin{bmatrix} h_{molecular} \\ 1 \end{bmatrix}\]

在融合之前，作者还使用了一个门控注意力机制来加权每个模态，以控制各自的表达能力，减少噪声特征的影响。

\[h_{i,gated} = z_i \odot h_i\]

其中，$z_i$是根据两种模态的联合信息计算出的注意力分数。

2.2 生存损失函数

为了处理右删失的生存数据，作者采用了离散时间生存模型。将连续的生存时间$T_{cont}$划分为4个非重叠的时间区间。模型预测的是在每个时间区间内发生事件的hazard function（风险函数）$f_{hazard}(r | h_{bag_j})$。通过累积乘积计算survival function（生存函数）$f_{surv}(r| h_{bag_j}) = \prod_{u=1}^r (1 - f_{hazard}(u| h_{bag_j}))$。最终的损失函数是一个基于负对数似然的NLL损失，它能够同时处理删失和未删失数据。

2.3 多模态可解释性与可视化

WSI可解释性：

局部：通过可视化AMIL子网络的注意力权重，生成高分辨率的注意力热图，高亮出对风险预测贡献大的形态学区域。
全局：对高风险和低风险患者群体中，高注意力区域的细胞类型进行定量分析（使用HoVer-Net进行细胞分割和分类）。

分子特征可解释性：

局部：使用Integrated Gradients (IG) 计算每个分子特征对单个患者风险预测的归因值，从而了解其贡献的大小和方向。
全局：通过分析所有患者的归因值分布，识别在群体水平上重要的分子标志物。

作者将上述功能整合到一个名为PORPOISE的交互式在线平台中，方便研究人员探索模型发现的预后标志物。

3. 实验分析

作者在来自TCGA的14个癌症类型、5,720名患者的数据上进行了5折交叉验证，并将多模态融合（MMF）模型与单模态模型（AMIL和SNN）进行了比较。

3.1 多模态整合提升患者风险分层

Figure A (Kaplan-Meier分析)：图中展示了MMF模型在14种癌症中对患者进行高/低风险分层的Kaplan-Meier曲线。在10/14的癌症类型中，MMF模型能够将患者显著地区分为高风险和低风险组（log rank test p < 0.05）。
Figure B (C-Index性能)：在14种癌症中，MMF的总体C-Index为0.644，显著高于纯组织学模型AMIL（0.578）和纯分子模型SNN（0.606）。在12/14的癌症类型中，MMF取得了最高的C-Index。特别是在BRCA, COADREAD, LUAD, PAAD, UCEC等癌症中，SNN模型本身无法实现显著的患者分层，但MMF通过整合图像信息后，实现了显著的分层。多模态整合几乎在所有癌症类型中都提升了模型性能。
Figure C (WSI归因分布)：该图量化了WSI模态在MMF模型预测中的贡献比例。平均而言，WSI贡献了16.8%的归因，表明分子特征在大多数情况下是风险预测的主要驱动力。然而，在UCEC中，WSI的贡献高达55.1%，这与AMIL在该癌种上的优异表现相符。在HNSC, STAD, LIHC中也观察到较高的WSI贡献。不同模态的预后重要性因癌症类型而异，这强调了为不同癌症开发定制化多模态模型的必要性。

3.2 多模态可解释性用于联合图像-组学生物标志物发现

作者以KIRC, KIRP, LGGs, PAAD四种癌症为例，展示了PORPOISE平台的可解释性分析。

对KIRC的分析：

A, E (形态学)：在低风险病例中，高注意力区域倾向于经典的透明细胞形态；而在高风险病例中，高注意力区域则对应于细胞质减少或核浆比增高的区域。
C (KM曲线)：MMF的患者分层效果（p=3.13e-10）显著优于SNN和AMIL。
D (分子)：SNN和MMF都能识别出如CDKN2C和VHL等已知的预后标志物。而MMF还能额外归因于其他免疫相关/预后基因，如RUNX1和NFIB。

对KIRP的分析：

A, E (形态学)：在低风险病例中，模型关注复杂的乳头状结构；在高风险病例中，则关注更密集的肿瘤细胞区域。
C (KM曲线)：MMF取得了最大的性能提升，其c-Index达到0.816。
D (分子)：MMF除了识别出SNN也能找到的BAP1等标志物外，还能归因于PROCR和RIOK1等其他免疫相关基因。

对LGGs的分析：

A, E (形态学)：低风险病例的高注意力区域集中在密集的肿瘤细胞区，而高风险病例则额外关注血管增生区域。
C (KM曲线)：MMF的患者分层效果同样优于单模态模型。
D (分子)：MMF和SNN都成功识别了IDH1, ATRX, EGFR等定义LGG分子亚型的关键基因。

对PAAD的分析：

A, E (形态学)：低风险病例关注含有分散腺体和淋巴细胞聚集的基质，而高风险病例关注与肿瘤相关的粘液样基质。
C (KM曲线)：在PAAD中，单模态模型几乎无法区分低生存期的患者，而MMF通过整合信息，成功地将他们分离开。
D (分子)：MMF除了识别出IL8, EGFR, MET等基因外，还将归因转移到了CD81, CDK1, IL9等其他免疫相关基因上。

3.3 免疫应答作为预后标志物

作者假设tumor-infiltrating lymphocyte (TIL)（肿瘤浸润淋巴细胞）的存在与有利的癌症预后相关，并使用PORPOISE的可解释性来验证这一假设。

通过量化高注意力区域中TIL的存在分数，作者发现，在14种癌症中的9种中，低风险患者的TIL分数显著高于高风险患者。这一发现与越来越多的证据表明TILs在多种癌症中具有预后作用的观点相符。

PORPOISE在没有被明确训练识别TILs的情况下，自发地将TIL的存在作为预测良好预后的形态学特征，这证明了其发现有意义的生物标志物的能力。