0. TL; DR

这篇论文将多实例学习（Multiple Instance Learning, MIL）的思想引入时序分类领域，设计了一个名为MILLET (Multiple Instance Learning for Locally Explainable Time series classification)的框架。该框架将TSC问题重新定义为MIL问题，并用MIL池化方法替换传统TSC模型中的全局平均池化层。

在包含85个数据集的UCR时间序列分类基准库上，MILLET框架不仅提供了内在的可解释性，而且在预测性能上优于原始的黑箱模型。在WebTraffic数据集上，MILLET生成的可解释性热力图，其质量显著优于经典的CAM和昂贵的SHAP等方法。

1. 背景介绍

近年来，以FCN、ResNet、InceptionTime为代表的深度学习（DL）模型在时间序列分类（Time Series Classification, TSC）领域取得了巨大成功。然而，这些DL模型普遍存在两个致命的缺陷：

黑箱问题: 它们能给出“是什么”的预测（例如，“这段心电图是心力衰竭”），但无法告诉“为什么”（例如，“因为在XX秒到XX秒之间出现了这个异常的波形”）。这种缺乏可解释性的特性，极大地限制了它们在医疗、金融等高风险领域的实际应用和信任建立。
信息聚合粗糙: 这些模型通常在最后阶段使用全局平均池化（Global Average Pooling, GAP），将所有时间点的特征表示成一个向量。这种做法对所有时间点一视同仁，无法区分哪些是决定性的“信号”，哪些是无关紧要的“噪声”，从而限制了模型的预测性能上限。

为了解决这些问题，一些研究者尝试使用后处理（post-hoc）的可解释性方法，如LIME、SHAP等。但这些方法往往计算成本极高（需要多次模型前向传播）。作者通过引入多实例学习（Multiple Instance Learning, MIL），让TSC模型自身就具备可解释性，即内在可解释性（inherently interpretable），并且这种方法还能改善其粗糙的信息聚合方式。

2. MILLET框架

将TSC问题重新框定为MIL问题是MILLET框架的理论基础：将一整条时间序列视为一个MIL的包 (bag)，将序列中的每个时间点 (time point)视为一个实例 (instance)。模型必须能够生成每个时间点的预测，这是实现内在可解释性的前提。并且必须尊重时间点的顺序，这与经典MIL的i.i.d.假设不同。

MILLET框架保留了传统DL-TSC模型中的特征提取器和分类器，只将中间的GAP替换为更先进的MIL池化算子。这是一个即插即用（plug-and-play）的改造。作者探索了四种MIL池化方法：

Attention Pooling: 通过一个注意力头为每个时间点嵌入$z_j$学习一个权重$a_j$，然后进行加权平均。
\[\hat{Y}_i = \psi_{CLF}\left( \frac{1}{t} \sum_{j=1}^t a_{ji} z_i^j \right)\]
Instance Pooling: 先分类，后聚合。直接用分类器$ψ_{CLF}$对每个时间点嵌入$z_j$进行预测，得到时间点预测$ŷ_j$，然后再对所有时间点预测进行平均。
\[\hat{y}_i^j = \psi_{CLF}(z_i^j); \quad \hat{Y}_i = \frac{1}{t} \sum_{j=1}^t (\hat{y}_i^j)\]
Additive Pooling: 这是Attention和Instance的串联。先用注意力权重$a_j$加权时间点嵌入$z_j$，然后再送入分类器。
\[\hat{y}_i^j = \psi_{CLF}(a_{ji} z_i^j); \quad \hat{Y}_i = \frac{1}{t} \sum_{j=1}^t (\hat{y}_i^j)\]
Conjunctive Pooling: 这是Attention和Instance的并行组合。注意力头$ψ_{ATTN}$和分类器$ψ_{CLF}$独立地作用于原始的时间点嵌入$z_j$，分别得到权重$a_j$和预测$ŷ_j$。最后，用权重$a_j$来加权预测$ŷ_j$。
\[a_{ji} = \psi_{ATTN}(z_i^j); \quad \hat{y}_i^j = \psi_{CLF}(z_i^j); \quad \hat{Y} = \frac{1}{t} \sum_{j=1}^t (a_{ji} \hat{y}_i^j)\]

联合池化意在强调一个时间点要想对最终结果有重要贡献，必须同时被注意力头和分类器都认为是重要的。通过上述改造，MILLET模型自然地获得了内在可解释性：

对于Instance, Additive, Conjunctive这三种池化，它们直接生成了每个时间点的类别预测$ŷ_j$，这本身就是一张类别相关的贡献度图。
对于Attention池化，其注意力权重$a_j$可以被用作每个时间点重要性的度量。

为了进一步提升性能，作者还为MILLET模型引入了三项增强：

位置编码 (Positional Encoding): 在特征提取后，为每个时间点嵌入加入位置编码，以增强模型对时序的感知。
复制填充 (Replicate Padding): 将卷积层中的零填充改为复制边界值填充，以消除在序列首尾产生的虚假信号。
Dropout: 在池化层前加入Dropout，以防止过拟合。

3. 实验分析

3.1 WebTraffic合成数据集

作者构建了一个名为WebTraffic的合成数据集，其中包含10类具有不同“信号模式”（如尖峰、截断、偏移等）的时间序列，这些信号模式的位置是已知的。

在预测准确率上，MILLET模型（平均0.874）优于原始的GAP模型（平均0.850）。其中，Conjunctive InceptionTime模型达到了最高的0.940。使用AOPCR和NDCG@n两个指标，将MILLET的内在解释与CAM和昂贵的SHAP进行对比。结果显示，MILLET的解释质量全面优于CAM和SHAP。特别是SHAP，由于时间序列过长，其采样近似方法几乎失效。

可视化结果显示，MILLET能够准确地定位出不同类别信号模式所在的区域。有趣的是，它并非简单地高亮整个区域，而是捕捉到了模式的关键部分，如“截断”模式的起止点，这为理解模型的决策提供了更深层次的洞察。

3.2 UCR基准库

在包含85个不同领域数据集的UCR时间序列分类基准库上进行大规模评测。在所有MIL池化方法中，Conjunctive Pooling表现最佳。在与七大类TSC SOTA方法的对比中，Conjunctive InceptionTime的性能与最顶尖的、极其复杂的集成方法HIVE-COTE 2 (HC2)和混合方法Hydra-MR相当，甚至在平衡准确率上略微胜出。

实验发现了一个有趣的预测性能-可解释性权衡：模型越复杂（InceptionTime > ResNet > FCN），预测性能越强，但可解释性（AOPCR）越差。MILLET的引入，整体上抬高了这条权衡曲线。

在LargeKitchenAppliances数据集上，MILLET能够清晰地识别出代表“洗衣机”、“烘干机”、“洗碗机”的不同用电模式，其解释比CAM更稀疏、聚焦，比SHAP更清晰、稳定。