通过建模生物通路与组织学的密集交互进行生存预测.

paper：Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction

0. TL; DR

本文提出了SurvPath模型，从转录组学中学习生物通路标记，这些标记能够编码特定的细胞功能，与组织学图像块标记一起构成了适合进行可解释性分析的推理单元。使用一个内存高效的多模态Transformer来融合这两种模态，建模通路和组织学图像块标记之间的交互。

SurvPath在来自The Cancer Genome Atlas (TCGA) 的五个数据集上进行了评估，其性能优于单模态和state-of-the-art的多模态基线模型。此外，作者提出的可解释性框架能够识别出关键的多模态预后因素，从而为理解基因型与表型之间的相互作用提供了宝贵的见解。

1. 背景介绍

在计算病理学（CPATH）中，预测患者预后是一项基本任务，它旨在使用组织学WSI进行自动化的风险评估、患者分层和治疗反应预测。这通常被构建为一个生存分析任务。由于WSI的尺寸巨大，multiple instance learning (MIL) 等弱监督方法被广泛应用。

虽然组织学图像提供了关于细胞类型及其组织方式的表型信息，但其他模态（如bulk transcriptomics）可以提供互补的信号。通过结合这两种模态，我们可以将批量转录组学提供的全局信息与WSI提供的空间信息进行整合。

然而，转录组学和组织学的多模态融合面临两大技术挑战：

转录组学的标记化 (Tokenizing transcriptomics modality)：与可以明确标记化为对象区域或单词的图像和文本不同，如何以一种有意义且可解释的方式对转录组学进行标记化是一个难题。许多现有研究直接将整个基因表达特征向量与其他模态拼接，这限制了多模态学习只能进行晚期融合。作者提出，将基因根据已知的biological pathways（生物通路）进行分组，可以产生数百到数千个代表独特分子过程的tokens，这比粗略的基因集划分更适合与精细的形态学进行多模态融合。
捕捉密集的多模态交互 (Capturing dense multimodal interactions)：使用Transformer对组织学和通路tokens进行早期融合，需要建模所有tokens之间的成对交互。然而，大量的组织学图像块tokens（例如，NH > 15,000）和通路tokens（例如，NP = 331）使得这种计算在内存和算力上都面临巨大挑战。

为了应对这些挑战，作者提出了SurvPath，它包含一种新颖的转录组学标记化方法和一个内存高效的多模态Transformer架构。

2. SurvPath 方法

SurvPath是一个用于基于组织学和转录组学进行多模态生存预测的模型。其流程如图所示，主要包括三个部分：通路标记化、组织学图像块标记化和多模态融合。

2.1 从转录组学中提取通路标记 (Pathway Tokenizer from Transcriptomics)

通路，即参与特定生物过程的一组基因，是分析转录组学的自然推理单元。给定一组基因的转录组学测量值$g \in \mathbb{R}^{N_G}$，作者的目标是构建通路级别的tokens $X^{(P)} \in \mathbb{R}^{N_P \times d}$。

作者使用MLPs 来对通路进行编码。具体来说，通过学习一个稀疏的MLP (S-MLP)，将原始的转录组学数据$g$映射到通路tokens $x^{(P)} \in \mathbb{R}^{N_P d}$。网络的稀疏性由基因到通路的连接性（即一个基因属于哪些通路）决定。

\[x_i^{(P)} = \phi_i(g_{P_i})\]

其中，$g_{P_i}$是通路$P_i$中包含的基因集，$\phi_i$是通路特异性的可学习权重。这样得到的通路token既是可解释的（因为它编码了特定的生物学功能），又是可端到端学习的。

2.2 从WSI中提取组织学图像块标记 (Histology Patch Tokenizer from WSIs)

首先识别出WSI中的组织区域，并将其分解为一组不重叠的patches $H = {h_1, …, h_{N_H}}$。由于一个WSI的patches数量巨大，作者采用了一个预训练的特征提取器$f(\cdot)$来将每个patch $h_i$映射到一个patch embedding $x_i^{(H)} = f(h_i)$。

作者使用的是一个通过对比学习在超过1500万个泛癌种组织病理学patches上预训练的Swin Transformer编码器。最后，通过一个可学习的线性变换将patch embeddings投影到与通路token相同的维度$d$，得到组织学图像块tokens $X^{(H)} \in \mathbb{R}^{N_H \times d}$。

2.3 多模态融合 (Multimodal Fusion)

作者采用Transformer attention来建模通路和图像块tokens之间的密集多模态交互。

将通路和图像块tokens拼接成一个序列后，标准的自注意力机制需要计算一个$(N_H+N_P) \times (N_H+N_P)$大小的注意力矩阵，其内存复杂度为$O((N_H+N_P)^2)$。当$N_H$非常大时（如>50,000），这是难以承受的。

为了解决这个瓶颈，作者提出了一种近似的Transformer attention。其核心思想是，在计算注意力时，忽略patch-to-patch的交互。注意力矩阵被分解为四个部分：通路-通路（$A_{P \to P}$）、通路-图像块（$A_{P \to H}$）、图像块-通路（$A_{H \to P}$）和图像块-图像块（$A_{H \to H}$）。作者通过将$A_{H \to H}$部分的注意力得分在softmax前设置为$-\infty$来忽略它。

\[\hat{X}_{Att} = \sigma \left( \frac{1}{\sqrt{d}} \begin{pmatrix} Q_P K_P^T & Q_P K_H^T \\ Q_H K_P^T & -\infty \end{pmatrix} \right) V\]

这种近似可以将交互数量从$(N_H+N_P)^2$大幅减少到$N_P^2 + 2N_P N_H$，从而在内存有限的情况下实现计算。

2.4 生存预测 (Survival Prediction)

在通过多模态Transformer融合后，作者取通路tokens和图像块tokens的平均表示，并将它们拼接起来，得到最终的患者级多模态嵌入$\bar{x}_{Att} \in \mathbb{R}^{2d}$。

为了将生存预测问题简化为分类问题，作者将连续的生存时间离散化为若干个不重叠的时间区间。使用一个为删失数据设计的negative log-likelihood (NLL) 生存损失函数进行训练。

2.5 多层次可解释性 (Multi-Level Interpretability)

作者提出了一个多层次的可解释性框架：

转录组学层面：使用Integrated Gradient (IG) 来识别对风险预测贡献最大的通路和基因。
组织学层面：同样使用IG来获得patch级别的影响力得分，从而研究与高/低风险相关的形态学特征。
跨模态交互层面：通过分析学习到的Transformer注意力矩阵$\hat{A}$，来研究通路与图像块之间的交互。

3. 实验分析

使用了来自TCGA的五个数据集：BLCA, BRCA, STAD, COADREAD, HNSC。

3.1 生存预测结果

SurvPath在总体性能上取得了最佳表现（平均C-index=0.629），优于所有单模态和多模态基线。与表现最好的单模态组织学模型TransMIL相比，SurvPath的C-index提升了7.3%。与表现最好的单模态转录组学模型MLP相比，提升了3.0%。与表现最好的多模态早期融合模型MCAT相比，提升了3.5%。

一个有趣的发现是，简单的MLP在转录组学数据上表现非常出色，甚至超过了部分多模态方法，这凸显了在异构和高维数据上进行鲁棒特征选择和整合的挑战性。SurvPath的高性能归功于其对两种模态的有效利用、统一且参数高效的融合模型，以及语义上有意义的转录组学标记化方法。

3.2 消融研究

作者比较了不同的转录组学标记化策略。结果显示，随着标记粒度的增加（从单个token到基因家族，再到通路），模型的整体性能也随之提升。使用Reactome和Hallmarks两个通路数据库的组合效果最好。这表明，构建语义上更精细的tokens能够带来性能上的提升。

作者测试了不同的注意力交互模式。结果表明，通路到图像块（$A_{P \to H}$）和图像块到通路（$A_{H \to P}$）的交互都为模型提供了互补的信息，去掉任何一个都会导致性能下降。这证明了建模双向交互的必要性。同时，使用Nyström方法来近似全注意力矩阵会导致性能显著下降，作者推测这是因为“真实”的注意力矩阵是低熵的，难以用低秩方法近似。

3.3 可解释性分析

该图展示了对一个低风险和一个高风险BRCA病例的可解释性分析。在两个病例中，都发现了一些已知与乳腺癌相关的通路，如Hallmark Epithelial-Mesenchymal Transition (EMT) 和COX Reactions。在高风险病例中，一个与铁代谢相关的通路被识别出来，这与铁代谢在乳腺癌发生和预后中的作用相符。

SurvPath能够可视化通路与特定形态学区域之间的注意力。例如，EMT通路主要关注于侵袭到基质中的肿瘤细胞巢。在低风险病例中，一个与雌激素反应相关的通路被发现是重要的，并且它主要关注显示为低级别浸润癌或原位癌形态的区域，这与激素阳性乳腺癌通常级别较低、生存期较长的认知一致。

有趣的是，Hallmark Myogenesis（肌生成）通路在两个病例中都显示出较高的重要性。虽然肌生成在乳腺癌中的研究不多，但这可能提示肿瘤细胞或其诱导的基质细胞可能表达了与该通路相关的基因。