在线掩码自编码器混合图卷积网络用于多模态癌症生存预测.
0. TL; DR
本文提出了一种名为HGCN(Hybrid Graph Convolutional Network)的网络,该网络配备了一个online masked autoencoder(在线掩码自编码器)范式,用于鲁棒的多模态癌症生存预测。
将患者的多模态数据建模为灵活且可解释的多模态图,HGCN整合了graph convolutional networks (GCNs) 和hypergraph convolutional network (HCN) 的优势,通过节点消息传递和超边混合机制来促进模态内和模态间的交互。为了应对临床场景中缺失模态的问题,作者将一个online masked autoencoder范式融入HGCN。该范式能有效捕捉模态间的内在依赖关系,并在模型推理时无缝地生成缺失的hyperedges(超边)。
作者在来自TCGA的六个癌症队列上进行了广泛的实验和分析。结果表明,无论是在完整模态还是缺失模态的设置下,作者的方法都显著优于state-of-the-arts方法。
1. 背景介绍
预测癌症患者的生存风险对于临床治疗和监测决策至关重要。传统的生存分析模型(如Cox模型)多依赖于人口统计学和临床协变量,但这些方法未能全面地表征患者的疾病病理和遗传因素,从而限制了生存预测的效力。
近年来,随着医学影像和基因组学技术的发展,生存预测研究进入了一个新的多模态时代。许多基于特征的融合技术被提出来融合不同模态的特征表示。然而,大多数现有方法存在以下问题:
- 交互不足:它们大多只关注增强每个模态的特征表示,并采用相对简单的融合方案(如拼接、逐行取最大值、外积等),导致对模态内和模态间的交互挖掘不足。
- 对数据完整性要求高:更重要的是,在临床实践中,由于采集成本和患者身体状况等原因,某些模态的数据可能会缺失。现有的多模态方法在面临这种情况时,往往会失效或性能急剧下降。
尽管已有方法(如零填充、因子分解表示、自编码器)被提出来解决数据不完整问题,但由于医疗数据的维度差异巨大且归因困难,将这些方法直接应用于多模态癌症生存预测是相当困难的。
因此,作者提出了HGCN,一个配备了online masked autoencoder的混合图卷积网络,旨在有效利用多模态数据的互补信息,并鲁棒地应对模态缺失的场景。
2. HGCN 方法
该框架的核心思想是将患者的多模态数据建模为图结构,通过HGCN促进模态内和模态间的交互,并通过一个在线的masked autoencoder来处理模态缺失的情况。

2.1 多模态图的构建 (Construction of Multimodal Graphs)
作者将一个患者的多模态数据(病理学、临床、基因组学)分别建模为灵活的图结构。
- 病理学图 ($G_p$):将WSI裁剪成不重叠的512x512的tiles。使用一个预训练的CNN(KimiaNet)为每个tile提取一个1024维的向量化表示作为节点特征。根据每个tile的空间坐标,以8邻接的方式连接节点,构建病理学图$G_p = {V_p, A_p}$。
- 临床记录图 ($G_c$):对每个临床记录(如年龄、性别)进行量化,并通过one-hot编码获得其向量表示。将每个向量表示作为图中的一个节点,并全连接这些节点,构建临床记录图$G_c = {V_c, A_c}$。
- 基因组谱图 ($G_g$):使用Gene Set Enrichment Analysis (GSEA) 生成五个基因组嵌入,分别代表:肿瘤抑制、致癌、蛋白激酶、细胞分化、细胞因子和生长。将这五个嵌入作为节点,并将它们相互连接,构建基因组谱图$G_g = {V_g, A_g}$。
这种图表示方法具有更灵活、更能挖掘上下文、能处理缺失特征以及更具可解释性等优点。
2.2 混合图神经网络 (Hybrid Graph Neural Network, HGCN)
HGCN包含两个核心部分:用于模态内交互的GCN层和用于模态间交互的超图卷积层。
2.2.1 使用GCN层进行模态内交互
挖掘每个模态内部的特有信息。为每个模态的图表示($G_p, G_c, G_g$)分别应用一个独立的GCN层(作者采用了GraphSAGE),以实现节点间的消息传递。
\[G_m^{intra} = \sigma(\text{GCN}(G_m^{in}))\]其中,$m \in {p, c, g}$,$G_m^{intra}$是经过模态内交互后生成的图表示。
2.2.2 使用超边混合进行模态间交互
在GCN层之后,作者将每个模态的所有节点视为被一条hyperedge(超边)连接。通过对一个模态的所有节点特征进行attention pooling,可以提取出代表该模态高阶信息的hyperedge表示$H_m$。
\[H_m = \sum_{n=1}^N \text{Softmax}(\text{MLP}_1(V_m^n)) \odot V_m^n\]为了促进模态间的交互,作者设计了一个hyperedge mix模块。该模块通过两个MLP层,分别在token-wise和channel-wise维度上对所有模态的hyperedges $H \in \mathbb{R}^{B \times M \times C}$ 进行混合。
\[H^{inter} := H^T + \text{MLP}_2((\text{LayerNorm}(H))^T)\\ H^{inter} := (H^{inter})^T + \text{MLP}_3(\text{LayerNorm}((H^{inter})^T))\]最后,将经过混合的、包含了多模态信息的hyperedge $H_m^{inter}$广播加回到相应的模态内图表示$G_m^{intra}$上,得到最终的输出多模态图$G_m^{out}$。
\[G_m^{out} = G_m^{intra} \oplus H_m^{inter}\]2.3 在线掩码自编码器 (Online Masked Autoencoder, Online MAE)
为了在模型推理时处理模态缺失的问题,作者设计了一个online MAE模块。
MAE是一种自监督学习方法,通过从可见部分预测被掩码的部分来学习有意义的表示。作者将其思想引入到多模态学习中,用于重建缺失模态的hyperedge。
与将MAE作为预训练任务不同,作者将其与HGCN的生存预测任务进行端到端的联合训练。在训练过程中,随机地掩码掉一部分模态(如基因组学)对应的hyperedge。将部分可见的hyperedges送入一个基于Transformer的非对称autoencoder中。编码器只处理可见的hyperedges,而解码器则在可见hyperedges的编码和代表缺失位置的mask tokens上进行重建。重建损失$L_{MAE}$仅在被掩码的hyperedges上计算。
在推理时,如果遇到有模态缺失的样本,训练好的MAE可以直接从可用的模态hyperedges中生成缺失的hyperedges,从而使后续的模态间交互能够正常进行。
2.4 训练与推理策略
总损失是MAE的重建损失和每个可用模态的Cox损失的加权和。
\[L_{Total} = \epsilon_o L_{MAE} + \sum_{m \in M} \epsilon_m L_{Cox}^m\]在推理时,对于一个给定的样本,首先计算其所有可用模态的图表示和hyperedges。然后,使用MAE补全缺失的hyperedges。接着,通过HGCN进行模态内和模态间交互。最后,对所有可用模态的预测结果进行平均,得到最终的生存预测。
3. 实验分析
3.1 实验设置
数据集使用了来自TCGA的六个癌症队列:KIRC, LIHC, ESCA, LUSC, LUAD, UCEC。
评估指标使用concordance index (CI)、Brier Score (BS) 和Kaplan-Meier (KM) 分析(及Logrank检验)。
与单模态方法(Graph based MIL, Cox model)和四种SOTA多模态方法(GSCNN, MultiSurv, Metric learning, Outer product, MCAT)进行比较。
3.2 在完整模态下的实验
在CI指标上,HGCN在所有六个癌症队列中都取得了最高的平均值,一致地优于所有SOTA和基线模型。在BS指标上,HGCN在五个队列中取得了最低(最好)的值,在UCEC上也取得了具有竞争力的结果。这些结果证明了HGCN在完整数据设置下的临床价值和有效性。

作者将HGCN与在每个数据集上表现最好的SOTA方法进行了KM分析的比较。在所有六个癌症队列中,HGCN的p-value都低于相应的SOTA方法,表明其对高/低风险患者的分层能力更强。HGCN在患者分层方面同样表现出色。

3.3 可解释性分析
得益于基于图的多模态数据建模,HGCN框架提供了丰富的可解释性。
- 病理学 (A):通过热图可视化了模型关注的病理学区域,高亮(红色)的代表性区域可用于发现新的生物标志物。
- 临床记录 (B):通过注意力值展示了不同临床记录对决策的贡献。例如,radiation therapy和pharmaceutical therapy具有高注意力值,这与先验知识一致。
- 基因组谱 (C):通过integrated gradient分析展示了排名前20的基因组特征对预测结果的影响,以及它们在高/低风险组中的分布。

3.4 在缺失模态下的实验
作者比较了HGCN与Zero padding, MFM, Autoencoder等处理缺失数据的方法。在所有六种缺失模态的设置下(例如,仅有临床记录、临床+病理等),HGCN的性能都一致地优于所有基线方法。这证明了HGCN的online MAE范式能够有效处理缺失模态,并保持了模型的鲁棒性。

作者可视化了在不同缺失模态设置下,MAE重建的hyperedge值与在完整模态下生成的hyperedge值的关系。结果显示,两者之间存在很强的相关性(Pearson相关系数$\rho > 0.8$)。这表明online MAE能够有效地捕捉模态间的内在依赖关系,并准确地重建缺失模态的高阶信息,从而提升了模型的鲁棒性。
