学习任意计数:弱监督的无参考类别无关计数.

这项工作旨在解决没有参考图像或点级监督的情况下任意类别目标的计数任务。这类任务需要解决两个问题:想要计数的目标在哪里,以及给定目标的类别是否出现在其他地方。对于第一个问题,需要一个通用的、信息丰富的特征空间。作者发现自监督知识蒸馏非常适合学习这样的特征空间。对于第二个问题,需要理解图像的全局背景,作者发现视觉Transformer非常适合这项任务。

作者使用自监督知识蒸馏从ViT-small教师网络$g_t$中学习一个学生网络$g_s$,然后通过线性投影直接回归目标计数值。损失函数选用绝对百分比误差$\mid c -\hat{c}\mid / c$。

该方法不需要点级注释和高斯密度图。作者认为由于位置注释通常是任意放置的,并且最多只包含关于目标大小和形状的有限信息,因此通过位置函数难以识别所有正确目标的不同部分,阻碍了网络对计数任务的理解。

作者在训练时采用了tiling增强,以增强图像密度的多样性,让网络更好地理解多个尺度和密度。tiling增强把输入图像的大小调整版本平铺到(2×2)网格中。

此外,作者发现FSC-147数据集中159张图像在数据集中出现了334次,因此提出了该数据集的修订版本FSC-133FSC-133有5898张图片,133个类别。训练集、验证集和测试集分别有来自82、26和25个类的3877、954和1067张图像。

结果表明,所提方法不需要参考图像、点级注释或测试时微调,所得结果也是具有竞争力的。这表明一个非常适合计数的架构和一个简单的、以计数为中心的目标函数的组合可以在没有任何基于位置的信息的情况下学习计数的有意义的概念表示。

为了验证网络正在学习有意义的信息,从线性投影权重加权的计数特征的奇异值分解中可视化了最重要的值。由于逐块计数特征的分辨率相对较低,因此训练了一个由3组卷积-ReLU-上采样组成的定位头,将训练计数特征的逐块分辨率(28×28)提高到逐像素密度图预测。