DAVE -- A Detect-and-Verify Paradigm for Low-Shot Counting

DAVE：少样本计数的检测与验证框架.

paper：DAVE – A Detect-and-Verify Paradigm for Low-Shot Counting

DAVE是一种基于检测和验证范式的少样本计数器，它首先生成一个高召回率的检测集，然后验证检测结果以识别和去除异常值，这共同提高了检测结果的召回率和准确率，从而实现准确的计数。

DAVE采用两阶段框架。在第一个检测阶段通过高召回率提取大量候选区域，在第二个验证阶段对候选区域进行分析，以识别和拒绝异常值，从而提高检测精度。这些异常值被用来更新密度图，从而也改进了基于密度的计数估计。

第一阶段：检测

检测阶段的目的是预测具有高召回率的候选边界框。使用现成的计数器LOCA来估计目标位置密度图，从中通过非极大值抑制获得中心位置，然后预测每个检测中心的边界框参数：中心位置到左、右、上、下边界框边缘的距离。

首先对查询图像特征进行上采样以恢复输入图像的大小，然后使用特征融合模块(FFM)融合该特征与LOCA提取的特征，以注入选定的目标类别形状信息。最后通过两个3 × 3的卷积层组成的回归头预测边界框参数。最后获取的检测候选框集合有较高的召回率，但也存在大量假阳性目标。

检测阶段通过在可用的标注目标样本边界框上评估的边界框损失来训练：

\[L_{box} = \sum_{i=1}^{k=3} 1-GIoU(v(x^c,y^c),b_i^{GT})\]

第二阶段：验证

验证阶段的目的是通过分析检测目标的特征并拒绝异常值来提高精度。首先对每个检测到的边界框提取验证特征向量，然后通过无监督聚类对验证特征进行聚类。属于至少有一个标记样本的集合的候选目标检测被保留，而其他的被标记为异常值并被删除，产生最终的目标检测集合。最后通过将检测到的边界框之外的所有值设置为零来更新检测阶段的密度图。

对于零样本计数，由于标记样本缺失，在验证阶段所有大小至少为最大聚类的45\%的聚类被保留为阳性检测，其余的被识别为异常值。对于基于文本提示的计数，通过CLIP提取文本提示嵌入，并与每个识别聚类的CLIP嵌入进行比较，并将小于85\%的提示聚类相似性的聚类识别为离群值。

训练过程是通过将一对带有不同类别的标注目标样本的图像拼接在一起生成的。因此拼接图像包含$2k$个边界框，产生两组由验证网络提取的特征，对应于两组样本$z_j^1,z_j^2$。然后通过对比损失训练验证网络:

\[L_{cos} - \begin{cases} 1-cosine(z_{j_1}^{i_1},z_{j_2}^{i_2}) & i_1 = i_2 \\ \max(0, cosine(z_{j_1}^{i_1},z_{j_2}^{i_2})-\lambda) & i_1 \neq i_2 \end{cases}\]

实验分析

作者对少样本、零样本与基于文本提示的计数方法在FSC47数据集上进行评估。结果表明所提方法均取得最佳表现。

为了验证性能改进的来源，将DAVE密度预测可视化，并将其与最先进的方法进行比较。其他方法经常计数不正确类别的目标或背景纹理中的结构。这表明相关方法对定位特征进行了过度泛化，以降低查准率为代价提高了查全率。然而，DAVE保留了高召回率，同时成功地识别了异常值并抑制了密度图中相应的激活，从而提高了精度。这表明提出的基于密度的计数的检测和验证范式的强大优势。