通过多实例学习实现内在可解释性时序分类.

0. TL; DR

这篇论文将多实例学习(Multiple Instance Learning, MIL)的思想引入时序分类领域,设计了一个名为MILLET (Multiple Instance Learning for Locally Explainable Time series classification)的框架。该框架将TSC问题重新定义为MIL问题,并用MIL池化方法替换传统TSC模型中的全局平均池化层。

在包含85个数据集的UCR时间序列分类基准库上,MILLET框架不仅提供了内在的可解释性,而且在预测性能上优于原始的黑箱模型。在WebTraffic数据集上,MILLET生成的可解释性热力图,其质量显著优于经典的CAM和昂贵的SHAP等方法。

1. 背景介绍

近年来,以FCN、ResNet、InceptionTime为代表的深度学习(DL)模型在时间序列分类(Time Series Classification, TSC)领域取得了巨大成功。然而,这些DL模型普遍存在两个致命的缺陷:

  1. 黑箱问题: 它们能给出“是什么”的预测(例如,“这段心电图是心力衰竭”),但无法告诉“为什么”(例如,“因为在XX秒到XX秒之间出现了这个异常的波形”)。这种缺乏可解释性的特性,极大地限制了它们在医疗、金融等高风险领域的实际应用和信任建立。
  2. 信息聚合粗糙: 这些模型通常在最后阶段使用全局平均池化(Global Average Pooling, GAP),将所有时间点的特征表示成一个向量。这种做法对所有时间点一视同仁,无法区分哪些是决定性的“信号”,哪些是无关紧要的“噪声”,从而限制了模型的预测性能上限。

为了解决这些问题,一些研究者尝试使用后处理(post-hoc)的可解释性方法,如LIME、SHAP等。但这些方法往往计算成本极高(需要多次模型前向传播)。作者通过引入多实例学习(Multiple Instance Learning, MIL),让TSC模型自身就具备可解释性,即内在可解释性(inherently interpretable),并且这种方法还能改善其粗糙的信息聚合方式。

2. MILLET框架

TSC问题重新框定为MIL问题是MILLET框架的理论基础:将一整条时间序列视为一个MIL包 (bag),将序列中的每个时间点 (time point)视为一个实例 (instance)。模型必须能够生成每个时间点的预测,这是实现内在可解释性的前提。并且必须尊重时间点的顺序,这与经典MILi.i.d.假设不同。

MILLET框架保留了传统DL-TSC模型中的特征提取器和分类器,只将中间的GAP替换为更先进的MIL池化算子。这是一个即插即用(plug-and-play)的改造。作者探索了四种MIL池化方法:

联合池化意在强调一个时间点要想对最终结果有重要贡献,必须同时被注意力头和分类器都认为是重要的。通过上述改造,MILLET模型自然地获得了内在可解释性:

为了进一步提升性能,作者还为MILLET模型引入了三项增强:

3. 实验分析

3.1 WebTraffic合成数据集

作者构建了一个名为WebTraffic的合成数据集,其中包含10类具有不同“信号模式”(如尖峰、截断、偏移等)的时间序列,这些信号模式的位置是已知的。

在预测准确率上,MILLET模型(平均0.874)优于原始的GAP模型(平均0.850)。其中,Conjunctive InceptionTime模型达到了最高的0.940。使用AOPCRNDCG@n两个指标,将MILLET的内在解释与CAM和昂贵的SHAP进行对比。结果显示,MILLET的解释质量全面优于CAMSHAP。特别是SHAP,由于时间序列过长,其采样近似方法几乎失效。

可视化结果显示,MILLET能够准确地定位出不同类别信号模式所在的区域。有趣的是,它并非简单地高亮整个区域,而是捕捉到了模式的关键部分,如“截断”模式的起止点,这为理解模型的决策提供了更深层次的洞察。

3.2 UCR基准库

在包含85个不同领域数据集的UCR时间序列分类基准库上进行大规模评测。在所有MIL池化方法中,Conjunctive Pooling表现最佳。在与七大类TSC SOTA方法的对比中,Conjunctive InceptionTime的性能与最顶尖的、极其复杂的集成方法HIVE-COTE 2 (HC2)和混合方法Hydra-MR相当,甚至在平衡准确率上略微胜出。

实验发现了一个有趣的预测性能-可解释性权衡:模型越复杂(InceptionTime > ResNet > FCN),预测性能越强,但可解释性(AOPCR)越差。MILLET的引入,整体上抬高了这条权衡曲线。

LargeKitchenAppliances数据集上,MILLET能够清晰地识别出代表“洗衣机”、“烘干机”、“洗碗机”的不同用电模式,其解释比CAM更稀疏、聚焦,比SHAP更清晰、稳定。