多模态组织病理学的生成式基础模型.

paper：A Generative Foundation Model for Multimodal Histopathology

0. TL; DR

MUPAD (Multimodal Pathology Diffusion) 是一个生成式基础模型。通过一个带有解耦跨模态注意力的diffusion transformer，将haematoxylin and eosin (H&E) 染色的组织学图像、分子RNA谱和临床文本嵌入到一个共享的潜空间中。

MUPAD在一个大规模多模态数据集上进行了预训练，该数据集涵盖34个人类器官，包含1亿个组织学图像块、160万个文本-组织学对和1080万个RNA-组织学对。经过预训练后，MUPAD能够支持多样化的跨模态合成任务，且只需极少甚至无需针对特定任务进行微调。

在各项基准测试中，MUPAD展现了卓越的性能：在文本条件和图生图任务中，MUPAD合成了组织学上真实的组织结构。在RNA条件的组织学图像生成任务中，MUPAD保持了五种癌症类型的细胞类型分布。作为虚拟染色器，MUPAD将H&E图像转换为immunohistochemistry (IHC) 和multiplex immunofluorescence (mIF)。

1. 背景介绍

现代病理学诊断整合了多种数据模态。对于癌症等复杂疾病，临床决策通常需要标准的H&E染色组织学图像，并辅以IHC或mIF进行蛋白质标志物量化，以及分子谱进行基因组或转录组表征。然而，在实际临床中，获取这套完整的数据常常是不可行的：组织量可能不足、特殊染色方案成本高昂、周转时间长等。这些多模态信息的缺失导致了诊断的不确定性，并可能影响治疗选择。

近期的研究表明，通过计算分析常规的H&E图像，可以预测互补的病理学模态，如IHC, mIF和空间转录组学。这证明了组织形态学编码了可通过学习映射恢复的潜在分子信息。然而，精确地提取这些信息仍然是一个巨大的挑战。现有方法依赖于专门的生成模型，每个模型都在一个狭窄的、针对单一源-目标组合的配对数据集上进行训练。这种范式产生了一个由孤立模型组成的生态系统，它们无法在不同模态之间共享学习到的表示。因此，每当出现新的染色方案、标志物组合或组织类型时，都需要在专门的配对数据上进行完整的重新训练——这种要求扩展性差，从根本上限制了临床部署。

解决这一局限性需要一个统一的生成框架，该框架能够将异构的病理学模态嵌入到一个共同的表示空间中，从而使从一个源-目标对学到的知识能够迁移到其他任务上。

基于diffusion的生成模型为实现这一目标提供了天然的基础。它们在连续域的高保真合成方面表现出state-of-the-art的性能，并且通过在共同潜空间中的共享去噪目标来支持灵活的条件生成。

因此，作者引入了MUPAD (Multimodal Pathology Diffusion)，一个统一的组织病理学生成式基础模型。它以H&E组织学为核心桥梁模态，通过在一个大规模、多模态语料库上进行预训练，实现了跨越转录组学、蛋白质组学、组织制备方案和临床文本的连贯跨模态合成。

2. MUPAD 方法

MUPAD建立在一个Diffusion Transformer (DiT) 之上，并在一个大规模多模态语料库上进行预训练。预训练数据涵盖34个人类器官，包含1亿个H&E图像块、160万个文本-图像对，以及1080万个RNA-图像对。

MUPAD的核心是一个DiT模型。为了处理异构的条件输入（文本、RNA、图像），作者引入了一种解耦跨模态注意力（decoupled cross-modal attention）机制。如图所示，该机制通过独立的注意力流并行处理文本、RNA和图像的嵌入，避免了不同语义模态之间的干扰。

直接融合文本、RNA和图像特征会损害性能，因为这些模态在尺度和语义上差异巨大。DCA模块为每种模态分配了独立的、并行的注意力流来处理，每个流都由中间图像表示$h$来查询：

\[\text{DCA}(h, C) = \sum_{m \in \{\text{RNA}, \text{text}, \text{image}\}} I(m) \cdot \text{Attention}(hW_Q, c_m W_m^K, c_m W_m^V)\]

其中，$C$是条件输入集合，$I(m)$指示模态$m$是否激活，$W$是可训练的投影矩阵。这种设计允许网络为每个模态学习专门的参数，保留其独特的生物学特性，同时实现灵活的多模态条件生成。

在预训练期间，作者使用了MUSK模型来提供文本/图像指导，并使用Virchow2模型进行特征蒸馏。

为了在生成过程中保持全局语义一致性，作者在标准的去噪目标之外，增加了一个辅助的CLS（分类）token损失。这强制要求中间噪声表示的全局语义与干净图像的语义嵌入保持一致。

3. 实验分析

作者在一系列广泛的跨模态合成任务上对MUPAD进行了评估，并与领域特定的生成模型进行了比较。

3.1 图像到图像的生成 (Image-to-image generation)

MUPAD能够始终如一地生成高保真度的图像，保留了复杂的生物结构，如细胞密度和腺体形态。相比之下，基线模型PixCell常引入严重的饱和伪影，FLUX.2产生风格化或颗粒状的输出，而通用的SD v3.5则完全失败。

在Image–Image Similarity（图像-图像相似性）上，MUPAD得分0.63，显著高于所有基线。在FID（Fréchet Inception Distance，越低越好）上，MUPAD得分为305.12，比PixCell提高了49.4%，比FLUX.2提高了59.3%。这些比较突出表明，MUPAD在保持形态学完整性方面表现出色。

3.2 文本到图像的生成 (Text-to-image generation)

当被提示生成具有“圆形细胞核和嗜酸性细胞质的均一胶质细胞”时，MUPAD准确地渲染了具有所需形态的图像，而基线模型PathLDM则产生了扭曲的细胞结构，SD v3.5和FLUX.2则完全无法捕捉正确的细胞学特征。

在FID上，MUPAD得分为576.30，比PathLDM提高了44.0%。在Text–Image Alignment（文本-图像对齐）上，MUPAD取得了最高的0.53分。MUPAD内化了自然语言描述符与其组织学表现之间的语义对应关系。

3.3 用于训练增强的合成数据生成

在5个数据集的5-shot和10-shot少样本图像分类任务中，使用MUPAD合成的图像进行数据增强，一致地提升了分类准确率。在10-shot设置下，PanNuke数据集的准确率从0.492提升到0.724（提升47.2%），SICAPv2从0.635提升到0.720。MUPAD合成的图像在数据稀缺的病理学分类场景中，能够有意义地改善特征表示。

作者使用MUPAD生成了10万个合成的图像-文本对，用于微调一个在自然图像上预训练的CLIP模型。在三个独立的病理学文本-图像检索数据集上，微调后的模型在Recall@10和Recall@50指标上均取得了约3倍的巨大提升。MUPAD生成的图像-文本对有效地弥合了通用领域与病理学特定领域之间的差距。

3.4 从空间转录组学生成H&E图像

MUPAD能够忠实地保留由输入转录组谱决定的复杂细胞类型分布。

Figure a (FID比较)：在五种不同的癌症类型上，MUPAD生成的合成图像在FID上一致且显著地优于基线模型GeneFlow。例如，在膀胱癌中，FID降低了28.4%。
Figure b, c (细胞类型组成分析)：作者使用Histoplus工具分析了合成图像的细胞类型组成，并与真实图像进行了比较。小提琴图（图b）显示，MUPAD生成的图像与真实图像的细胞类型分布非常吻合。通过计算Wasserstein距离（图c），MUPAD在几乎所有细胞类型上的分布对齐度都显著优于GeneFlow。
Figure d (定性比较)：可视化结果证实，MUPAD不仅捕捉了大致的组成比例，还重建了逼真的细胞形态和空间排列。

3.5 H&E到IHC的图像转换

MUPAD生成的虚拟IHC图像不仅在视觉上连贯，而且在统计学和诊断上与真实的临床IHC切片对齐。

Figure a, b (保真度比较)：定性（图a）和定量（图b）结果均表明，MUPAD在虚拟IHC染色任务上显著优于CUT和CycleGAN，能够更精确地定位染色区域，减少伪影和噪声。在IHC4BC-ER数据集上，FID相比CycleGAN降低了约50%。
Figure c (临床效用评估)：作者评估了使用虚拟IHC图像预测临床金标准（H-scores或amplification status）的能力。MUPAD在所有生物标志物（ER, PR, Ki67, HER2）上的AUC均显著超过基线模型。值得注意的是，基线模型在PR和HER2上的AUC低于0.5，表明它们产生了与临床标签系统性负相关的结果。

3.6 H&E到mIF的图像转换

MUPAD在从H&E推断复杂分子分布方面具有卓越的敏感性

Figure a, b (PCC比较)：在15个蛋白质标志物的虚拟空间蛋白质组学任务中，MUPAD在patch PCC（皮尔逊相关系数）和slide-level PCC两个指标上均取得了最佳的平均性能，显著优于专门为此任务设计的GigaTIME和HistoPlexer。对于难以预测的免疫标志物PD-L1，MUPAD的patch PCC为0.218，远超GigaTIME（0.150）和HistoPlexer（0.004）。
Figure c (定性比较)：可视化结果显示，MUPAD生成的标志物表达图忠实地再现了真实的空间异质性。对于PD-L1，MUPAD能正确识别其局部的“热点”表达，而基线模型则无法区分。

3.7 模型设计消融研究

这些消融研究证实了MUPAD关键架构设计的有效性。

Figure a (注意力机制消融)：将DCA替换为共享的跨模态注意力后，所有生成任务的性能都出现了一致且显著的下降。这证实了为不同语义的模态分配独立的注意力通路对于保持生成质量至关重要。
Figure b, c (对齐损失消融)：与简单的去噪损失或基于MLP的对齐策略（REPA）相比，作者提出的CNN-based spatial alignment与CLS token denoising loss相结合的策略，能够显著加速模型收敛，并提高生成图像的语义保真度和质量。