无模板多类别类不可知计数的盲计数器.
本文提出了一个多类别、类不可知计数数据集(MCAC)和一个盲计数器(ABC123),ABC123可以在训练或推理期间同时计数多种类型的目标而不依赖于用户提供的目标样本。
1. 多类别、类不可知计数数据集 MCAC
MCAC数据集中的每张图像包含具有1到4种目标类别,每个类别具有1到400个实例。每个图像的类别数和每个类别的实例分布如图所示。
MCAC数据集的训练集从287个类中提取4756张图像(8298个目标计数),验证集从37个类中提取的2413个图像(3640个目标计数),测试集从19个类中提取的2114个图像(4286个目标计数)。每个目标都提供了类标签、模型标签、中心坐标、边界框坐标、分割图、未遮挡分割图和遮挡百分比。
2. 盲计数器 ABC123
ABC123同时学习预测类别数与每个类别的密度图。使用ViT-Small提取图像特征后,使用$m$个卷积上采样头回归$m$个类别密度图($m$通常大于所有可能出现的类别数)。之后构造$m$个预测密度图和$n$个真实密度图之间的最优二分匹配:
\[\min_{\mathcal{M}} \sum_{i=1}^m \sum_{j=1}^n \mathcal{M}_{ij}\mathcal{C}_{ij}\]其中代价矩阵$\mathcal{C}$定义为归一化的真实密度图$d_i$和预测密度图$d_j$的像素距离。
\[\mathcal{C}_{ij} = \left\| \frac{d_i}{||d_i||_2} - \frac{d_j}{||d_j||_2} \right\|_2\]ABC123的损失函数为真实密度图与其被匹配的预测密度图的L1距离:
\[\mathcal{L} = \sum_{i=1}^m \sum_{j=1}^n \mathcal{M}_{ij} ||d_i-d_j||_1\]3. 实验分析
实验结果表明,所提方法在具有4个类的图像上表现良好,即使这些图像具有较高的类内外观变化(如不同侧面的颜色不同)和较低的类间变化。
通过使用预测密度图中的峰值作为预训练分割方法的点输入,在输入图像中可视化被计数的目标示例。