无需样例的类别无关计数.
类别无关的视觉计数器可以对多个类别中的对象进行计数。但是这些计数器需要人类用户通过提供感兴趣的对象类别的几个示例来指定他们想要计数的目标。因此这些计数器不能在任何全自动系统中使用。
本文提出了无需样例的类别无关的视觉计数器Repetitive Region Proposal Network (RepRPN),它能够从许多类别中计数对象,在训练时不需要注释对象。该方法的出发点是使用Region Proposal Network (RPN)来自动识别图像中所有可能的样本,并使用检测到的样本作为目标样例来计算所有类别中的所有对象。然而RPN通常会产生一千个或更多的对象建议,这又需要执行视觉计数器至少一千次,这是一个耗时且计算要求很高的过程。RepRPN可以用来自动识别图像中最频繁的类中的少数样本,与传统RPN相比,RepRPN更适合于视觉计数任务。
RepRPN首先使用Resnet-50提取输入图像的特征表示,并预测每个anchor位置处的Proposal边界框、目标得分和重复得分。其中目标得分是该Proposal属于任何目标类别而不属于背景类的概率,重复得分是指Proposal中的目标在图像中出现的次数。
原始RPN使用anchor位置周围的固定窗口来预测Proposal。这个固定大小的窗口并不能覆盖整个图像,因此不包含足够的信息来预测重复得分。为了有效地获取预测重复分数需要的全局信息,使用了编码器自注意力层。
使用重复分数从图像中的重复类中选择样本,即选择重复分数最高的Proposal作为示例样本。将该样本的卷积特征进行ROI池化,得到样本特征,与整个图像的卷积特征相结合后送入密度预测网络DPN。DPN是一个全卷积网络,由五个卷积层和三个上采样层组成,用于预测与输入图像具有相同空间维度的密度图。
RepRPN-Counter的训练分为两个阶段。第一阶段是训练RepRPN。一旦训练完成,RepRPN将被冻结并用于生成密度估计网络DPN的样本。第二阶段是训练DPN来预测每个样本的密度图。RepRPN的损失包括目标得分的二元交叉熵损失、边界框坐标和重复分数的Smooth-L1 损失。DPN的损失采用均方误差损失。