A Low-Shot Object Counting Network With Iterative Prototype Adaptation

基于迭代原型自适应的少样本目标计数网络.

paper：A Low-Shot Object Counting Network With Iterative Prototype Adaptation

本文提出了一种少样本目标计数网络Low-shot Object Counting network with iterative prototype Adaptation (LOCA)，输入一张图像$I$和一组边界框，预测类别密度图$R$。

LOCA架构遵循四个步骤：图像特征提取、目标原型提取、原型匹配和密度回归。图像特征提取生成编码后的图像特征，目标原型提取为每个边界框计算一个目标原型，原型匹配通过目标原型和图像特征的深度相关运算构造相似度图，密度回归预测密度图。

图像特征提取从ResNet-50主干编码的第二、三、四模块提取多尺度特征，并通过1x1卷积调整为相同大小。为了进一步巩固编码后的特征，增加同类别目标之间的相似性，使用了一个全局自注意力模块增强编码后的图像特征。

目标原型提取模块(Object prototype extraction, OPE)使用图像特征和n个边界框集合构建n个目标原型。原型应该概括图像中所选目标类别的外观和定位属性。形状信息是通过初始化原型的宽度和高度特征注入的；外观被迭代地转移到原型中：

首先通过RoI池化提取单个边界框的外观查询$Q^A$。池化操作将来自不同空间形状的特征映射到相同大小的查询向量中，丢失了形状信息；
在原型中引入形状查询来恢复丢失的信息。通过三层前馈网络把宽度和高度映射到形状查询$Q^S$；
形状查询$Q^S$和外观查询$Q^A$通过交叉注意力模块转换为目标原型。

密度回归头包括三个3 × 3卷积层，分别有128、64和32个特征通道，每个卷积层后面是一个Leaky ReLU；一个2×双线性上采样层；一个线性1 × 1卷积层，后面是一个Leaky ReLU。通过对密度图值求和来估计图像中物体的数量。输出损失为预测密度图和真值密度图的L2损失。为了更好地监督迭代自适应模块的训练，增加了辅助损失：将每次迭代的原型查询生成中间密度图，然后构造L2损失。

实验结果表明，在单样本和少样本设置下，LOCA模型均取得了最好的表现。

作者分析了与图像中目标数量相关的计数错误。LOCA在不同目标数量上的表现优于最先进的技术，在具有非常高目标数量的图像上的表现最显著。这些图像通常包含极高的物体密度，LOCA可以很好地处理这些情况，与最先进的技术相比，将计数错误减少了近50\%。