基于迭代原型自适应的少样本目标计数网络.

本文提出了一种少样本目标计数网络Low-shot Object Counting network with iterative prototype Adaptation (LOCA),输入一张图像$I$和一组边界框,预测类别密度图$R$。

LOCA架构遵循四个步骤:图像特征提取、目标原型提取、原型匹配和密度回归。图像特征提取生成编码后的图像特征,目标原型提取为每个边界框计算一个目标原型,原型匹配通过目标原型和图像特征的深度相关运算构造相似度图,密度回归预测密度图。

图像特征提取从ResNet-50主干编码的第二、三、四模块提取多尺度特征,并通过1x1卷积调整为相同大小。为了进一步巩固编码后的特征,增加同类别目标之间的相似性,使用了一个全局自注意力模块增强编码后的图像特征。

目标原型提取模块(Object prototype extraction, OPE)使用图像特征和n个边界框集合构建n个目标原型。原型应该概括图像中所选目标类别的外观和定位属性。形状信息是通过初始化原型的宽度和高度特征注入的;外观被迭代地转移到原型中:

  1. 首先通过RoI池化提取单个边界框的外观查询$Q^A$。池化操作将来自不同空间形状的特征映射到相同大小的查询向量中,丢失了形状信息;
  2. 在原型中引入形状查询来恢复丢失的信息。通过三层前馈网络把宽度和高度映射到形状查询$Q^S$;
  3. 形状查询$Q^S$和外观查询$Q^A$通过交叉注意力模块转换为目标原型。

密度回归头包括三个3 × 3卷积层,分别有128、64和32个特征通道,每个卷积层后面是一个Leaky ReLU;一个2×双线性上采样层;一个线性1 × 1卷积层,后面是一个Leaky ReLU。通过对密度图值求和来估计图像中物体的数量。输出损失为预测密度图和真值密度图的L2损失。为了更好地监督迭代自适应模块的训练,增加了辅助损失:将每次迭代的原型查询生成中间密度图,然后构造L2损失。

实验结果表明,在单样本和少样本设置下,LOCA模型均取得了最好的表现。

作者分析了与图像中目标数量相关的计数错误。LOCA在不同目标数量上的表现优于最先进的技术,在具有非常高目标数量的图像上的表现最显著。这些图像通常包含极高的物体密度,LOCA可以很好地处理这些情况,与最先进的技术相比,将计数错误减少了近50\%。