0. TL; DR

EXAONE Path 2.5是一个病理学基础模型，它联合建模了组织学（histologic）、基因组学（genomic）、表观基因组学（epigenetic）和转录组学（transcriptomic）四种模态，从而产生一个能更全面反映肿瘤生物学的整合性患者表示。

该方法包含三个关键组成部分：

多模态SigLIP损失 (Multimodal SigLIP Loss)：实现异构模态之间的all-pairwise对比学习，使模型能够捕捉到不同生物学层次之间的互补信息。
碎片感知的旋转位置编码 (Fragment-Aware Rotary Position Encoding, F-RoPE)：在处理WSI时，保留了空间结构和组织碎片的拓扑结构，使模型能区分切片上的不同组织碎片并捕捉区域级的组织学模式。
领域专用的内部基础模型 (Domain-Specialized Internal Foundation Models)：利用在组织病理学和转录组学数据集上独立预训练的内部基础模型，为多模态对齐提供具有生物学意义的、稳定的嵌入。

作者在一个内部真实世界临床数据集和一个涵盖80个任务的公共Patho-Bench基准上，对EXAONE Path 2.5与六个领先的病理学基础模型进行了评估。该框架展示了很高的数据和参数效率，在Patho-Bench上达到了与state-of-the-art基础模型相当的性能，同时在内部临床环境中表现出最高的适应性。

1. 背景介绍

计算病理学的快速发展通过大规模数字图像分析为理解癌症生物学开辟了新途径。Whole-slide images (WSI) 已成为肿瘤形态学的强大表示，但仅凭形态学不足以解释疾病机制，因为它不能直接揭示驱动肿瘤进展的遗传、表观遗传和转录等分子层面的改变。

为了解决这个问题，近期的研究已开始尝试将空间转录组学或病理报告等信息融入WSI的表示中。在此基础上，作者提出了一个多模态框架，该框架联合整合了五种互补的分子和组织病理学模态：WSI、bulk RNA-seq、single-nucleotide polymorphisms (SNP)、copy-number variations (CNV) 和DNA methylation。每种模态都捕捉了肿瘤生物学的不同层面：

SNP和CNV描述了启动或促进肿瘤发生的基因组改变。
这些改变通过DNA methylation等方式影响表观遗传调控。
表观遗传调控又进一步调节了在bulk RNA-seq中观察到的转录程序。
WSI则捕捉了这些分子过程最终导致的宏观表型。

通过构建一个跨越基因组、表观基因组、转录组和表型维度的共享潜空间，作者旨在实现可解释的多模态肿瘤学。然而，实现这种整合需要一个为现实世界临床多变性和模态缺失模式量身定制的病理学导向的多模态对齐框架。

2. EXAONE Path 2.5 框架

EXAONE Path 2.5的整体方案如图所示。其核心是使用一个multimodal SigLIP loss将WSI与多组学数据进行对齐，从而联合建模从基因型到表型的多个肿瘤生物学层次。

WSI Encoder：由一个内部预训练的WSI patch-level基础模型、一个配备了F-RoPE的Transformer-based aggregator和一个线性投影头组成。
Gene Encoders：为RNA, SNP, CNV, DNA methylation四种基因模态分配了独立的编码器。其中，RNA表达谱由一个内部预训练的RNA-seq基础模型进行编码。
Multimodal Embedding and Alignment：所有模态的最终嵌入通过Multimodal SigLIP loss进行联合对齐。

2.1 多模态SigLIP损失 (Multimodal SigLIP Loss)

标准的CLIP损失函数假定每行只有一个正确的正样本，这在多模态场景下会导致不同正样本间的竞争。为了克服这一限制，作者采用了SigLIP的思路，并将其扩展到多模态设置。

将相似度矩阵中的每一对都视为一个独立的二元分类问题，使用binary cross-entropy (BCE) 损失。对于$M$个模态中的任意一对模态$(i, j)$，作者都为其关联一个专属的投影（由权重矩阵$W_{i,j}$和偏置向量$b_{i,j}$参数化）。从模态$i$到模态$j$的投影嵌入计算如下：

\[h_{n,i \to j} = \text{Normalize}(W_{i,j} x_{n,i} + b_{i,j})\]

这种设计使得模型能够学习到不同生物学层次之间特定于模态对的交互空间。

logits值$l_{n,i,k,j}$由来自不同样本（$n$和$k$）的投影嵌入的点积计算得出。最终，总损失是所有模态对的BCE损失项的集合。

2.2 碎片感知的旋转位置编码 (F-RoPE)

在处理WSI时，简单地将patch特征视为无序集合会忽略组织的宝贵空间信息。同时，一张切片上可能包含多个物理上不相连的组织碎片。

作者使用RoPE来编码patches之间的空间关系。它通过旋转query/key向量来注入位置信息。为了避免在不相连的组织碎片之间产生虚假的位置耦合，作者构建了一个布尔掩码。该掩码限制了RoPE分支中的注意力，使其只在同一碎片内部的tokens之间发生作用。

作者的aggregator transformer交替使用RoPE-attention和NoPE-attention（无位置编码）块。这使得模型能够同时学习到局部的结构线索和全局的、与空间无关的slide-level证据。

3. 实验分析

3.1 训练数据与基准测试

作者整理了一个包含23,099名患者的多模态训练队列，其中包含WSI, RNA-seq, SNP, CNV, DNA methylation五种模态。基准测试包括：

内部临床基准：包含来自韩国和美国多家医院的内部数据集，涵盖LUAD和CRC的四项分子预测任务。
公共基准：Patho-Bench：一个大规模、全面的计算病理学基准套件，涵盖了80个任务，分为7个主要类别（如突变预测、肿瘤分级、TME表征等）。

作者将EXAONE Path 2.5与六个state-of-the-art的病理学和多模态基础模型进行了比较，包括CHIEF, GigaPath, PRISM, TITAN, H-optimus-0, UNI2-h。

3.2 在内部临床基准上的性能

该表报告了在四个内部临床任务、跨越三个不同医疗中心的数据集上的AUROC性能。EXAONE Path 2.5在所有任务上的平均AUROC达到了0.7675，取得了最高的平均性能，展示了其在不同机构间强大的泛化能力。

该图将模型的平均AUROC性能与其参数量和预训练数据规模进行了关联。尽管EXAONE Path 2.5的参数量和预训练数据量远小于一些十亿参数级别的基线模型，但它仍然取得了最优的AUROC。这突显了为病理学量身定制的架构选择（如碎片感知的位置编码和多模态对齐）比单纯的规模扩展能带来更大的收益，从而产生高效且有效的切片表示。

3.3 在Patho-Bench上的性能

Patho-Bench是一个包含80个任务的公共基准。尽管在训练数据规模和模型大小上存在巨大差异，EXAONE Path 2.5的性能仍然与state-of-the-art的模型相当。例如，在cptac_coad_MSI_H任务上，EXAONE Path 2.5取得了0.933的AUROC，表现突出。EXAONE Path 2.5不仅在分布外的真实世界数据上表现出优越的性能，在分布内的评估中也展现了稳定和全面的性能。

3.4 多组学对齐对表示学习的影响

作者通过无监督聚类来分析学习到的patch嵌入的内在结构。在与分子模态对齐之前（图A），来自不同器官的WSI特征在t-SNE空间中混杂在一起。在通过EXAONE Path 2.5进行多模态对齐之后（图B），嵌入表现出显著改善的、按器官分类的聚类结构。例如，肺、胰腺、乳腺、肾脏等不同器官的样本形成了清晰可辨的簇。整合分子上下文能够放大组织病理学特征中具有生物学意义的信号，并产生能更好反映潜在组织和器官特异性表型的表示。