少样本目标计数与检测.

本文旨在解决少样本目标计数与检测任务(Few-Shot object Counting and Detection,FSCD)。在训练阶段,标签是图像中几个示例边界框和所有目标的点注释;在测试阶段,给定给定目标类的几个示例边界框,计数和检测该目标类的所有目标。

作者提出了基于不确定性感知点的少样本目标检测与计数模型Counting-DETR。该模型采用一种两阶段训练策略,首先在几个样例边界框上预训练,然后用预训练网络以点标注为查询点生成伪边界框,最后使用这些边界框作为监督来训练目标检测。考虑到伪边界框的不确定性,引入了不确定性损失来正则化边界框的学习。

首先使用CNN主干从输入图像II中提取特征映射FIFI,然后在样本边界框BkBk的中心提取样本特征向量fBkfBk,通过对这些特征向量进行平均得到样本特征向量fB=kfBk/KfB=kfBk/K。将样本特征向量fBfB集成到图像特征FIFI中,生成样本集成特征映射FAFA

FA=Wproj[FI;FIfB]FA=Wproj[FI;FIfB]

Counting-DETR以样本集成的特征映射FAFAMM个查询点{pm}Mm=1{pm}Mm=1作为输入,并预测每个查询点pmpm的边界框bmbm。查询点是代表物体位置的初始猜测的2D点。

然后使用解码器预测代表该目标在特定位置是否存在的分类分数s,以及将该目标的边界框µµ进行回归。对于每一对匹配的标签和预测边界框,使用Focal损失、L1损失和GIoU损失的组合作为训练损失函数。

此外,Counting-DETR还估计了在伪边界框监督下训练时的不确定性σσ。这种不确定性用于正则化边界框的学习,使得在具有高不确定性的预测中产生较小的损失。这一损失来源于以拉普拉斯分布为特征的预测边界框μμ分布与伪边界框˜μ~μ分布之间的最大似然估计(MLE):

Luncertainty=12o{x,y,w,h}|μo˜μ0|σo+logσoLuncertainty=12o{x,y,w,h}|μo~μ0|σo+logσo

作者对第一阶段生成的伪边界框进行可视化:

此外作者引入了两个用于少样本目标计数与检测的新数据集。