多实例不确定性估计的弱监督残差证据学习.
0. TL; DR
这篇论文首将不确定性估计问题引入到多实例学习中( MIUE),并提出了一个解决方案:多实例残差证据学习(Multi-Instance Residual Evidential Learning, MIREL)。
论文从理论上推导出一个新的实例估计器 $T(x)$,它直接源于包级别的决策函数,从而与包预测共享同一个决策空间,更接近理想的实例预测。在 $T(x)$ 的基础上,MIREL进一步学习一个实例专属的残差,用于补偿 $T(x)$ 的固有偏差,从而得到一个更精准的实例预测器 $R(x)$。模型通过预测一个狄利克雷分布(Dirichlet distribution)而非单一的概率值,从而在包级别和实例级别同时对高阶不确定性(包括数据不确定性和模型不确定性)进行建模。
MIREL作为一个即插即用的模块,能够显著提升现有多种深度MIL网络(如ABMIL, DSMIL)的不确定性估计能力。MIREL为在弱监督的MIL场景下量化预测不确定性提供了一个有效且通用的基线框架。
1. 背景介绍
深度学习模型往往过于自信,即使面对一个从未见过的、完全陌生的样本,它们也可能给出一个极高的置信度分数。不确定性估计(Uncertainty Estimation, UE)模型会对它没把握的预测给出低置信度;现有的UE方法几乎都有一个共同的前提假设:拥有完整的、实例级别的标签来进行全监督训练。
在多实例学习(MIL)中,只有模糊的包级别标签,实例标签是未知的。对于多实例不确定性估计(Multi-Instance UE, MIUE),模型需要:
- 在包级别,从有标签的包中学习,估计模型的不确定性 $p(\omega|D)$。
- 在实例级别,从无标签的实例中学习,估计一个全新的、弱监督下的后验分布 $p(\theta_w|D)$。
基于注意力的MIL模型(如ABMIL)利用注意力分数间接进行实例级别的预测。但是注意力机制的主要目标是学习一个更好的包表示,而不是精准地预测每个实例的标签;注意力网络的参数完全包含在包级别分类器的参数中,两者高度耦合,难以独立地为实例建模不确定性。
本文的出发点是能否设计一种不依赖于注意力机制、专门为实例服务的不确定性估计器,并在此基础上构建一个能够同时处理包级别和实例级别不确定性的统一框架。
2. MIREL 模型
对称函数基本定理指出,任何一个对包进行打分的函数(即包分类器)$S(X)$,都可以分解为 $S(X) = g(\sum_k f(x_k))$ 的形式,其中 $f$ 是实例转换器,$g$ 是最终的决策函数。
作者指出,如果包分类器可以写成这种形式,那么一个可行的实例分类器 $T(x)$ 就可以直接通过跳过聚合步骤得到:$T(x) = g \circ f$。这个新估计器$T(x)$与包分类器$S(X)$共享了同一个决策空间$g$。
论文进一步证明,如果一个包分类器$S(X)$是完美的(总能正确预测包标签),那么由它导出的实例分类器$T(x)$也必然是完美的。
虽然$T(x)$在理论上很优雅,但它毕竟是直接复用包级别的决策函数$g$,而$g$是在聚合后的特征上训练的,直接用在单个实例特征上会存在偏差。为了修正这种偏差,MIREL引入了残差学习的思想。它为实例专门设计了一个残差估计器 $R(x)$:
\[R(x) = T(x) + r_\pi(f_\psi(x))\]其中$T(x) = g_\phi(f_\psi(x))$是从包分类器导出的基础预测。$r_\pi(f_\psi(x))$是一个由独立参数$\pi$控制的残差网络。它的任务是学习并补偿$T(x)$的预测偏差,使得最终的预测更接近真实的实例标签。
有了包估计器$S(X)$和实例估计器$R(x)$,MIREL引入了证据深度学习 (EDL) 框架来量化不确定性。与传统分类器直接输出一个概率值不同,EDL模型输出的是收集到的“证据”,这些证据被用来参数化一个狄利克雷分布 (Dirichlet distribution)。狄利克雷分布是概率分布的分布,因此它能够对二阶不确定性进行建模。
包级别的不确定性建模为:
\[p(\mu|X) = \text{Dir}(\mu|\alpha_{bag}) \\ \alpha_{bag} = e_{bag} + 1 = A(S(X)) + 1\]其中,$e_{bag}$是从包分类器$S(X)$得到的证据,$A(\cdot)$是一个保证证据非负的激活函数。
实例级别的不确定性建模为:
\[p(\nu|x) = \text{Dir}(\nu|\alpha_{ins}) \\ \alpha_{ins} = e_{ins} + 1 = A(R(x)) + 1\]其中,$e_{ins}$是从实例残差估计器$R(x)$得到的证据。
通过这种方式,MIREL在包级别和实例级别都构建了能够显式量化不确定性的概率模型。
为了在只有包标签的情况下如何训练实例估计器$R(x)$,MIREL设计了一个弱监督损失函数 $L_{\text{MIREL}}$。
- 对于负包($Y=0$),所有实例标签都确定为0,可以直接监督。
- 对于正包($Y=1$),标签是模糊的。MIREL使用基础估计器$T(x)$的预测概率作为权重,对所有实例的证据进行加权求和,形成一个“合成证据” $\tilde{\alpha} = \sum_k \bar{w}_k e_k + 1$,然后用这个合成证据来计算损失。这种加权策略比简单地假设所有实例都为正,或者对损失进行加权,能提供一个更紧的上界,从而实现更有效的优化。
最终,MIREL的总目标函数由三部分构成:包级别的证据学习损失 $L_{\text{I-EDL}}$,实例级别的弱监督证据学习损失 $L_{\text{MIREL}}$,以及一个正则化项 $L_{\text{RED}}$。
\[\mathcal{L} = L_{\text{I-EDL}} + L_{\text{MIREL}} + L_{\text{RED}}\]3. 实验分析
作者在合成数据集(MNIST-bags)和真实世界的病理图像数据集(CAMELYON16)上进行了实验。
3.1 MIREL作为“增强插件”的效果
作者首先验证MIREL能否提升现有深度MIL网络的UE能力。将MIREL分别与Mean-pooling, Max-pooling, DSMIL, ABMIL等经典MIL网络结合。
在实例级别,MIREL带来了巨大提升。例如,在与ABMIL结合后,实例置信度评估(Conf.)的AUROC从61.28%飙升至90.73%,OOD检测能力也大幅增强。在包级别,MIREL同样能有效提升模型的OOD检测能力,平均提升约7%。这证明了MIREL作为一个即插即用的模块是非常成功的。它所设计的残差实例估计器和弱监督学习策略,能够有效地帮助基线模型更好地理解实例级别的不确定性。
3.2 与SOTA不确定性估计方法的对比
作者将MIREL与Deep Ensemble, MC Dropout, Bayes-MIL等专门的UE方法进行比较。所有方法都以ABMIL为基础网络,以确保公平。无论是在MNIST-bags还是更具挑战性的CAMELYON16数据集上,MIREL在实例级别的UE任务(置信度评估、OOD检测)上都以巨大优势领先于所有对手。这一结果凸显了MIREL的根本性优势。通用UE方法(如Ensemble, Dropout)并没有针对MIL的弱监督特性进行设计,而专门的Bayes-MIL虽然考虑了MIL,但其对注意力的不确定性建模,不如MIREL这种直接解耦、残差学习的方式来得直接和有效。
3.3 分布偏移下的鲁棒性分析
作者进一步测试模型在面对不同程度的数据分布偏移时的反应。在CAMELYON16测试集上人为添加不同强度的噪声(lighter, light, strong),观察模型的UE指标变化。
在实例级别,只有MIREL和Bayes-MIL能够有效检测出分布偏移(AUROC > 0.5),且MIREL在强偏移下的表现(0.62)优于Bayes-MIL(0.57),其他通用UE方法完全失效。在包级别,MIREL同样表现出色,在各种强度的偏移下都能保持最好的或第二好的检测性能。这再次证明了MIREL在处理现实世界中常见的数据质量下降、设备差异等问题时,具有更强的鲁棒性。它能量化出由分布偏移带来的不确定性增加,这对于在临床部署中避免错误决策至关重要。