少样本目标计数与检测.
本文旨在解决少样本目标计数与检测任务(Few-Shot object Counting and Detection,FSCD)。在训练阶段,标签是图像中几个示例边界框和所有目标的点注释;在测试阶段,给定给定目标类的几个示例边界框,计数和检测该目标类的所有目标。
作者提出了基于不确定性感知点的少样本目标检测与计数模型Counting-DETR。该模型采用一种两阶段训练策略,首先在几个样例边界框上预训练,然后用预训练网络以点标注为查询点生成伪边界框,最后使用这些边界框作为监督来训练目标检测。考虑到伪边界框的不确定性,引入了不确定性损失来正则化边界框的学习。
首先使用CNN主干从输入图像$I$中提取特征映射$F^I$,然后在样本边界框$B_k$的中心提取样本特征向量$f^B_k$,通过对这些特征向量进行平均得到样本特征向量$f^B=\sum_k f^B_k / K$。将样本特征向量$f^B$集成到图像特征$F^I$中,生成样本集成特征映射$F^A$:
\[F^A = W_{proj} * [F^I;F^I\otimes f^B]\]Counting-DETR以样本集成的特征映射$F^A$和$M$个查询点\(\{p_m\}^M_{m=1}\)作为输入,并预测每个查询点$p_m$的边界框$b_m$。查询点是代表物体位置的初始猜测的2D点。
然后使用解码器预测代表该目标在特定位置是否存在的分类分数s,以及将该目标的边界框$µ$进行回归。对于每一对匹配的标签和预测边界框,使用Focal损失、L1损失和GIoU损失的组合作为训练损失函数。
此外,Counting-DETR还估计了在伪边界框监督下训练时的不确定性$σ$。这种不确定性用于正则化边界框的学习,使得在具有高不确定性的预测中产生较小的损失。这一损失来源于以拉普拉斯分布为特征的预测边界框$\mu$分布与伪边界框$\tilde{\mu}$分布之间的最大似然估计(MLE):
\[L_{uncertainty} = \frac{1}{2} \sum_{o \in \{x,y,w,h\}} \frac{|\mu_o-\tilde{\mu}_0|}{\sigma_o} + \log \sigma_o\]作者对第一阶段生成的伪边界框进行可视化:
此外作者引入了两个用于少样本目标计数与检测的新数据集。
- FSC-147数据集是一个包含147个类别和6135张图像的计数数据集,每个图像提供了所有目标的点注释和三个示例框,此数据集不包含所有目标的边界框注释。作者通过为验证集和测试集的所有目标提供边界框注释来扩展FSC-147数据集,新数据集命名为FSCD-147。
- FSCD-LVIS数据集包含6196张图像和377个类,提取自LVIS数据集。对于每个图像,过滤掉面积小于20像素、或宽度或高度小于4像素的所有实例。