少样本目标计数与检测.
本文旨在解决少样本目标计数与检测任务(Few-Shot object Counting and Detection,FSCD)。在训练阶段,标签是图像中几个示例边界框和所有目标的点注释;在测试阶段,给定给定目标类的几个示例边界框,计数和检测该目标类的所有目标。
作者提出了基于不确定性感知点的少样本目标检测与计数模型Counting-DETR。该模型采用一种两阶段训练策略,首先在几个样例边界框上预训练,然后用预训练网络以点标注为查询点生成伪边界框,最后使用这些边界框作为监督来训练目标检测。考虑到伪边界框的不确定性,引入了不确定性损失来正则化边界框的学习。
首先使用CNN主干从输入图像II中提取特征映射FIFI,然后在样本边界框BkBk的中心提取样本特征向量fBkfBk,通过对这些特征向量进行平均得到样本特征向量fB=∑kfBk/KfB=∑kfBk/K。将样本特征向量fBfB集成到图像特征FIFI中,生成样本集成特征映射FAFA:
FA=Wproj∗[FI;FI⊗fB]FA=Wproj∗[FI;FI⊗fB]Counting-DETR以样本集成的特征映射FAFA和MM个查询点{pm}Mm=1{pm}Mm=1作为输入,并预测每个查询点pmpm的边界框bmbm。查询点是代表物体位置的初始猜测的2D点。
然后使用解码器预测代表该目标在特定位置是否存在的分类分数s,以及将该目标的边界框µµ进行回归。对于每一对匹配的标签和预测边界框,使用Focal损失、L1损失和GIoU损失的组合作为训练损失函数。
此外,Counting-DETR还估计了在伪边界框监督下训练时的不确定性σσ。这种不确定性用于正则化边界框的学习,使得在具有高不确定性的预测中产生较小的损失。这一损失来源于以拉普拉斯分布为特征的预测边界框μμ分布与伪边界框˜μ~μ分布之间的最大似然估计(MLE):
Luncertainty=12∑o∈{x,y,w,h}|μo−˜μ0|σo+logσoLuncertainty=12∑o∈{x,y,w,h}|μo−~μ0|σo+logσo作者对第一阶段生成的伪边界框进行可视化:
此外作者引入了两个用于少样本目标计数与检测的新数据集。
- FSC-147数据集是一个包含147个类别和6135张图像的计数数据集,每个图像提供了所有目标的点注释和三个示例框,此数据集不包含所有目标的边界框注释。作者通过为验证集和测试集的所有目标提供边界框注释来扩展FSC-147数据集,新数据集命名为FSCD-147。
- FSCD-LVIS数据集包含6196张图像和377个类,提取自LVIS数据集。对于每个图像,过滤掉面积小于20像素、或宽度或高度小于4像素的所有实例。
Related Issues not found
Please contact @0809zheng to initialize the comment