邻近计数网络.

少样本计数可以从许多视觉类别中对物体进行计数,但少样本计数网络的性能仍然受到有限的训练数据量的限制。目前该任务最大的数据集是FSC147,只有3659张训练图像。为了缓解训练集大小的限制,本文提出了共同学习计数和增加现有训练数据的邻近计数网络(Vicinal Counting Networks, VCN)。

VCN由一个生成器和一个计数回归器组成。生成器将图像与随机噪声向量一起作为输入,并生成输入图像的增强版本。计数回归器学习对原始图像和增强图像中的物体进行计数。生成器的训练信号来源于计数网络的计数损失,旨在帮助计数网络在合成图像上实现准确的预测。

生成器的目标是通过从训练样本附近生成虚拟样本来增强训练数据,并且使虚拟样本具有与训练样本相同的标签。生成器由映射网络、编码器、自适应实例规范化层和解码器组成。映射网络由一个8层MLP组成,将随机噪声向量$z$映射到一个中间隐特征$w$;编码器通过一组卷积层将输入图像转换为中间特征表示$Q$;自适应实例归一化使用潜在特征$w$对输入特征$Q$进行风格迁移,保留输入特征的内容,并根据潜在特征$w$改变其风格。

回归网络接收输入图像和一组描述目标示例的边界框位置,并预测密度映射图。回归网络由三个关键模块组成:特征表示模块、特征关联模块和密度预测模块。特征表示模块为输入图像和样本提取特征;特征关联模块将样本的特征与图像特征相关联;密度预测模块使用样本与图像特征之间的相关图来预测密度图。

VCN的端到端训练是通过最小化三种损失的组合:计数损失、重构损失和多样性损失。

实验结果表明,VCNFSC147 ValTest集上都优于所有以前的方法。

作者对一些生成的图像进行可视化: