Few-shot Object Counting and Detection - 郑之杰的个人网站

少样本目标计数与检测.

paper：Few-shot Object Counting and Detection

本文旨在解决少样本目标计数与检测任务（Few-Shot object Counting and Detection，FSCD）。在训练阶段，标签是图像中几个示例边界框和所有目标的点注释；在测试阶段，给定给定目标类的几个示例边界框，计数和检测该目标类的所有目标。

作者提出了基于不确定性感知点的少样本目标检测与计数模型Counting-DETR。该模型采用一种两阶段训练策略，首先在几个样例边界框上预训练，然后用预训练网络以点标注为查询点生成伪边界框，最后使用这些边界框作为监督来训练目标检测。考虑到伪边界框的不确定性，引入了不确定性损失来正则化边界框的学习。

首先使用CNN主干从输入图像$I$中提取特征映射$F^I$，然后在样本边界框$B_k$的中心提取样本特征向量$f^B_k$，通过对这些特征向量进行平均得到样本特征向量$f^B=\sum_k f^B_k / K$。将样本特征向量$f^B$集成到图像特征$F^I$中，生成样本集成特征映射$F^A$：

\[F^A = W_{proj} * [F^I;F^I\otimes f^B]\]

Counting-DETR以样本集成的特征映射$F^A$和$M$个查询点$\{p_m\}^M_{m=1}$作为输入，并预测每个查询点$p_m$的边界框$b_m$。查询点是代表物体位置的初始猜测的2D点。

然后使用解码器预测代表该目标在特定位置是否存在的分类分数s，以及将该目标的边界框$µ$进行回归。对于每一对匹配的标签和预测边界框，使用Focal损失、L1损失和GIoU损失的组合作为训练损失函数。

此外，Counting-DETR还估计了在伪边界框监督下训练时的不确定性$σ$。这种不确定性用于正则化边界框的学习，使得在具有高不确定性的预测中产生较小的损失。这一损失来源于以拉普拉斯分布为特征的预测边界框$\mu$分布与伪边界框$\tilde{\mu}$分布之间的最大似然估计(MLE)：

\[L_{uncertainty} = \frac{1}{2} \sum_{o \in \{x,y,w,h\}} \frac{|\mu_o-\tilde{\mu}_0|}{\sigma_o} + \log \sigma_o\]

作者对第一阶段生成的伪边界框进行可视化：

此外作者引入了两个用于少样本目标计数与检测的新数据集。

FSC-147数据集是一个包含147个类别和6135张图像的计数数据集，每个图像提供了所有目标的点注释和三个示例框，此数据集不包含所有目标的边界框注释。作者通过为验证集和测试集的所有目标提供边界框注释来扩展FSC-147数据集，新数据集命名为FSCD-147。
FSCD-LVIS数据集包含6196张图像和377个类，提取自LVIS数据集。对于每个图像，过滤掉面积小于20像素、或宽度或高度小于4像素的所有实例。