邻近计数网络.
少样本计数可以从许多视觉类别中对物体进行计数,但少样本计数网络的性能仍然受到有限的训练数据量的限制。目前该任务最大的数据集是FSC147,只有3659张训练图像。为了缓解训练集大小的限制,本文提出了共同学习计数和增加现有训练数据的邻近计数网络(Vicinal Counting Networks, VCN)。
VCN由一个生成器和一个计数回归器组成。生成器将图像与随机噪声向量一起作为输入,并生成输入图像的增强版本。计数回归器学习对原始图像和增强图像中的物体进行计数。生成器的训练信号来源于计数网络的计数损失,旨在帮助计数网络在合成图像上实现准确的预测。
生成器的目标是通过从训练样本附近生成虚拟样本来增强训练数据,并且使虚拟样本具有与训练样本相同的标签。生成器由映射网络、编码器、自适应实例规范化层和解码器组成。映射网络由一个8层MLP组成,将随机噪声向量$z$映射到一个中间隐特征$w$;编码器通过一组卷积层将输入图像转换为中间特征表示$Q$;自适应实例归一化使用潜在特征$w$对输入特征$Q$进行风格迁移,保留输入特征的内容,并根据潜在特征$w$改变其风格。
回归网络接收输入图像和一组描述目标示例的边界框位置,并预测密度映射图。回归网络由三个关键模块组成:特征表示模块、特征关联模块和密度预测模块。特征表示模块为输入图像和样本提取特征;特征关联模块将样本的特征与图像特征相关联;密度预测模块使用样本与图像特征之间的相关图来预测密度图。
- 特征表示模块使用Resnet-50架构的块进行特征表示,并使用来自第三和第四个卷积块的特征来获得多尺度表示。样本的多尺度特征是通过使用边界框集作为感兴趣的区域进行ROI池化来获得的。
- 特征关联模块将每个样本的特征与图像特征关联起来,为每个样本生成一个单独的相关图。为了处理图像内尺度的变化,将样本特征缩放到0.9和1.1的尺度,并将缩放后的样本特征与图像特征相关联。
- 密度预测模块使用相关图来预测密度图。密度预测模块由5个卷积块和3个上采样层组成,上采样层位于第一、第二和第三卷积层之后。在每个中间卷积层之后使用LeakyReLU激活函数和实例归一化。最后一个1×1卷积层之后使用ReLu激活。
VCN的端到端训练是通过最小化三种损失的组合:计数损失、重构损失和多样性损失。
- 计数损失为回归网络预测的密度图与地面真点图的高斯平滑图像之间的均方误差(MSE)。
- 重构损失迫使生成器生成接近输入训练图像的图像,采用L1损失。
- 多样性损失为了防止生成器生成的图像完全退化为输入图像。随机采样两个噪声向量$z_1,z_2$并通过生成器生成图像,并从Resnet-50主干的conv4块中获得卷积特征,则多样性定义为两个特征映射归一化之后的点积。
实验结果表明,VCN在FSC147 Val和Test集上都优于所有以前的方法。
作者对一些生成的图像进行可视化: